close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

강화학습는 "마르코드 의사결정 과정" 정의를 기반으로 합니다.

마르코드 의사결정 과정을 이해하기 위해서는 아래와 같은 순으로 이해가 필요합니다.

  - 확률 변수와 확률 분포 -> 이산 시간 확률과정 -> 마르코프 체인 -> 마르코프 결정 과정

 

마르코프 결정 과정을 바탕으로 이를 푸는 과정이 다이나믹 프로그래밍와 강화학습으로 나눠지게 됩니다.

마르코프 결정 과정을 이해하고 나서는 다이나믹 프로그래밍의 이해가 필요합니다.

그 이후에 강화학습에 이해하는 과정이 필요합니다.

 

관련 사이트 정리해서 올립니다.

관련해서 좋은 사이트가 있으면 댓글 달아 주세요

 

 - 전반적으로 정리한 사이트

   http://secom.hanbat.ac.kr/or/chapter1/right04.html


 

1. 이산 시간 확률 과정

   https://en.m.wikipedia.org/wiki/Stochastic_process

 

   - 확률과정

      https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EA%B3%BC%EC%A0%95

 

   - 확률과정의 동영상

      https://www.youtube.com/watch?v=qq4CenNTcc8

      https://www.youtube.com/watch?v=t7i_K8z9A70&t=6s

 

   - 확률 변수

      https://namu.wiki/w/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98

      http://cau.ac.kr/~orist/2006_2/STAT/ch5_2p.pdf

      http://math7.tistory.com/19

 

   - 확률 변수와 확률 분포

      https://www.youtube.com/watch?v=JjX4EPhfUps

      https://cveai.github.io/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5/2018/02/14/rvariable.html

 

2. 마르코프 체인

    https://ko.khanacademy.org/computing/computer-science/informationtheory/moderninfotheory/v/markov_chains

 

    https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84

 

    http://electronicsdo.tistory.com/entry/Markov-chain-%EB%A7%88%EC%BD%94%ED%94%84-%EC%B2%B4%EC%9D%B8

 

3. 마르코프 의사 결정 프로세스

    http://dsba.korea.ac.kr/wp/wp-content/seminar/Reinforcement%20Learning/RL_week2_Markov%20Decision%20Processes_%EC%9D%B4%EA%B8%B0%EC%B0%BD.pdf

 

    https://norman3.github.io/rl/docs/chapter04.html

 

    http://passi0n.tistory.com/m/80

 

4. 마르코프라는 사람

 

    https://ko.wikipedia.org/wiki/%EC%95%88%EB%93%9C%EB%A0%88%EC%9D%B4_%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84

 

    http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Markov.html

 

5. 강화학습 정리

    http://daeson.tistory.com/category/Reinforcement%20Learning

    https://www.facebook.com/SKTBrain/photos/pcb.311444575893030/311444102559744/?type=3&theater

 

번호 제목 글쓴이 날짜 조회 수
공지 RL4RWS 이용 안내 모두의연구소 2017.09.04 2112
74 OpenAI GYM 설치/구동법 (리눅스/윈도우즈) file 통통배 2017.09.26 2248
73 강화학습 실습 6. Tensorflow 설치 및 간단한 테스트 cosmos 2018.02.11 1494
72 아두이노 설치 및 초음파센서, 모터, 블루투스 예제 사이트 정리 cosmos 2018.02.01 965
71 [아두이노] 초음파 센서 연결 예제 [2] file 쪼알 2018.02.16 949
» 이산 시간 확률 과정, 마르코프 체인, 마르코프 의사결정 과정 관련 사이트 정리 cosmos 2018.01.18 739
69 강화학습 실습 1. Python과 OpenAI Gym 설치 및 간단한 동작 file cosmos 2018.02.09 646
68 신경망 구현 비교 분석 (tensorflow, C언어, MATLAB) file cosmos 2018.03.18 529
67 OpenCV를 사용한 Line Detection 후 Steering 정보 추출 과정 cosmos 2018.06.05 502
66 강화학습 실습 3. FrozonLake - dummy Q-learning file cosmos 2018.02.09 375
65 makefile과 linker script 없이 컴파일 하기 [1] file cosmos 2017.09.17 343
64 Cortex-M3 기반 STM32 세미나 자료입니다. file cosmos 2017.09.12 316
63 알아두면 쓸데 있는 강화학습 동영상(김태훈 (데브시스터즈)) 도전자 2017.09.11 293
62 강화학습 실습 4. FrozonLake - Q-Learning : Exploit & Exploration file cosmos 2018.02.09 271
61 강화학습 실습 8. FrozonLake : DQN - 2013 cosmos 2018.02.27 265
60 강화학습 실습 2. FrozonLake 동작 시켜 보기 file cosmos 2018.02.09 247
59 강화학습 실습 5. FrozonLake - Q-Learning on Stochastic World file cosmos 2018.02.09 247
58 Frizing을 이용한 회로 완성 file cosmos 2018.03.15 245
57 실습에 사용될 컴파일러 및 설치 과정 [2] file cosmos 2017.09.15 243
56 임베디드SW·System산업협회 임베디드 인공지능(강화학습) 발표자료 file cosmos 2018.06.08 240