close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

강화학습는 "마르코드 의사결정 과정" 정의를 기반으로 합니다.

마르코드 의사결정 과정을 이해하기 위해서는 아래와 같은 순으로 이해가 필요합니다.

  - 확률 변수와 확률 분포 -> 이산 시간 확률과정 -> 마르코프 체인 -> 마르코프 결정 과정

 

마르코프 결정 과정을 바탕으로 이를 푸는 과정이 다이나믹 프로그래밍와 강화학습으로 나눠지게 됩니다.

마르코프 결정 과정을 이해하고 나서는 다이나믹 프로그래밍의 이해가 필요합니다.

그 이후에 강화학습에 이해하는 과정이 필요합니다.

 

관련 사이트 정리해서 올립니다.

관련해서 좋은 사이트가 있으면 댓글 달아 주세요

 

 - 전반적으로 정리한 사이트

   http://secom.hanbat.ac.kr/or/chapter1/right04.html


 

1. 이산 시간 확률 과정

   https://en.m.wikipedia.org/wiki/Stochastic_process

 

   - 확률과정

      https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EA%B3%BC%EC%A0%95

 

   - 확률과정의 동영상

      https://www.youtube.com/watch?v=qq4CenNTcc8

      https://www.youtube.com/watch?v=t7i_K8z9A70&t=6s

 

   - 확률 변수

      https://namu.wiki/w/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98

      http://cau.ac.kr/~orist/2006_2/STAT/ch5_2p.pdf

      http://math7.tistory.com/19

 

   - 확률 변수와 확률 분포

      https://www.youtube.com/watch?v=JjX4EPhfUps

      https://cveai.github.io/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5/2018/02/14/rvariable.html

 

2. 마르코프 체인

    https://ko.khanacademy.org/computing/computer-science/informationtheory/moderninfotheory/v/markov_chains

 

    https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84

 

    http://electronicsdo.tistory.com/entry/Markov-chain-%EB%A7%88%EC%BD%94%ED%94%84-%EC%B2%B4%EC%9D%B8

 

3. 마르코프 의사 결정 프로세스

    http://dsba.korea.ac.kr/wp/wp-content/seminar/Reinforcement%20Learning/RL_week2_Markov%20Decision%20Processes_%EC%9D%B4%EA%B8%B0%EC%B0%BD.pdf

 

    https://norman3.github.io/rl/docs/chapter04.html

 

4. 마르코프라는 사람

 

    https://ko.wikipedia.org/wiki/%EC%95%88%EB%93%9C%EB%A0%88%EC%9D%B4_%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84

 

    http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Markov.html

 

5. 강화학습 정리

    http://daeson.tistory.com/category/Reinforcement%20Learning

    https://www.facebook.com/SKTBrain/photos/pcb.311444575893030/311444102559744/?type=3&theater

 

번호 제목 글쓴이 날짜 조회 수
공지 RL4RWS 이용 안내 모두의연구소 2017.09.04 1490
39 2월 20일 세미나 진행 내용 cosmos 2018.02.20 46
38 [아두이노] 초음파 센서 연결 예제 [2] file 쪼알 2018.02.16 35
37 2월 13일 세미나 진행 내용 cosmos 2018.02.13 42
36 강화학습 실습 7. FrozonLake : Q-network cosmos 2018.02.11 23
35 강화학습 실습 6. Tensorflow 설치 및 간단한 테스트 cosmos 2018.02.11 44
34 강화학습 실습 5. FrozonLake - Q-Learning on Stochastic World cosmos 2018.02.09 22
33 강화학습 실습 4. FrozonLake - Q-Learning : Exploit & Exploration cosmos 2018.02.09 17
32 강화학습 실습 3. FrozonLake - dummy Q-learning cosmos 2018.02.09 30
31 강화학습 실습 2. FrozonLake 동작 시켜 보기 cosmos 2018.02.09 36
30 강화학습 실습 1. Python과 OpenAI Gym 설치 및 간단한 동작 cosmos 2018.02.09 61
29 1차 아두이노 및 부품 리스트 file cosmos 2018.02.07 47
28 2월 6일 세미나 진행 내용 cosmos 2018.02.06 53
27 아두이노 기반 실물 제작 발표자료 file cosmos 2018.02.02 43
26 아두이노 설치 및 초음파센서, 모터, 블루투스 예제 사이트 정리 cosmos 2018.02.01 54
25 향후 일정 정리 file cosmos 2018.01.31 108
24 1월 30일 세미나 진행 내용 cosmos 2018.01.31 21
23 강화학습의 진화 : 3차원 및 물리환경의 적용 - LG blog file cosmos 2018.01.26 65
22 1월 23일 세미나 진행 내용 cosmos 2018.01.23 67
21 Autonomous self-learning systems 영문 번역 1차 file cosmos 2018.01.22 54
» 이산 시간 확률 과정, 마르코프 체인, 마르코프 의사결정 과정 관련 사이트 정리 cosmos 2018.01.18 164