close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

강화학습는 "마르코드 의사결정 과정" 정의를 기반으로 합니다.

마르코드 의사결정 과정을 이해하기 위해서는 아래와 같은 순으로 이해가 필요합니다.

  - 확률 변수와 확률 분포 -> 이산 시간 확률과정 -> 마르코프 체인 -> 마르코프 결정 과정

 

마르코프 결정 과정을 바탕으로 이를 푸는 과정이 다이나믹 프로그래밍와 강화학습으로 나눠지게 됩니다.

마르코프 결정 과정을 이해하고 나서는 다이나믹 프로그래밍의 이해가 필요합니다.

그 이후에 강화학습에 이해하는 과정이 필요합니다.

 

관련 사이트 정리해서 올립니다.

관련해서 좋은 사이트가 있으면 댓글 달아 주세요

 

 - 전반적으로 정리한 사이트

   http://secom.hanbat.ac.kr/or/chapter1/right04.html


 

1. 이산 시간 확률 과정

   https://en.m.wikipedia.org/wiki/Stochastic_process

 

   - 확률과정

      https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EA%B3%BC%EC%A0%95

 

   - 확률과정의 동영상

      https://www.youtube.com/watch?v=qq4CenNTcc8

      https://www.youtube.com/watch?v=t7i_K8z9A70&t=6s

 

   - 확률 변수

      https://namu.wiki/w/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98

      http://cau.ac.kr/~orist/2006_2/STAT/ch5_2p.pdf

      http://math7.tistory.com/19

 

   - 확률 변수와 확률 분포

      https://www.youtube.com/watch?v=JjX4EPhfUps

      https://cveai.github.io/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5/2018/02/14/rvariable.html

 

2. 마르코프 체인

    https://ko.khanacademy.org/computing/computer-science/informationtheory/moderninfotheory/v/markov_chains

 

    https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84

 

    http://electronicsdo.tistory.com/entry/Markov-chain-%EB%A7%88%EC%BD%94%ED%94%84-%EC%B2%B4%EC%9D%B8

 

3. 마르코프 의사 결정 프로세스

    http://dsba.korea.ac.kr/wp/wp-content/seminar/Reinforcement%20Learning/RL_week2_Markov%20Decision%20Processes_%EC%9D%B4%EA%B8%B0%EC%B0%BD.pdf

 

    https://norman3.github.io/rl/docs/chapter04.html

 

    http://passi0n.tistory.com/m/80

 

4. 마르코프라는 사람

 

    https://ko.wikipedia.org/wiki/%EC%95%88%EB%93%9C%EB%A0%88%EC%9D%B4_%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84

 

    http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Markov.html

 

5. 강화학습 정리

    http://daeson.tistory.com/category/Reinforcement%20Learning

    https://www.facebook.com/SKTBrain/photos/pcb.311444575893030/311444102559744/?type=3&theater

 

번호 제목 글쓴이 날짜 조회 수
공지 RL4RWS 이용 안내 [3] 모두의연구소 2017.09.04 2452
75 OpenAI GYM 설치/구동법 (리눅스/윈도우즈) file 통통배 2017.09.26 3081
74 강화학습 실습 6. Tensorflow 설치 및 간단한 테스트 cosmos 2018.02.11 2805
73 [아두이노] 초음파 센서 연결 예제 [2] file 쪼알 2018.02.16 1268
72 강화학습 실습 1. Python과 OpenAI Gym 설치 및 간단한 동작 file cosmos 2018.02.09 1226
71 아두이노 설치 및 초음파센서, 모터, 블루투스 예제 사이트 정리 cosmos 2018.02.01 1140
» 이산 시간 확률 과정, 마르코프 체인, 마르코프 의사결정 과정 관련 사이트 정리 cosmos 2018.01.18 1039
69 OpenCV를 사용한 Line Detection 후 Steering 정보 추출 과정 cosmos 2018.06.05 1030
68 신경망 구현 비교 분석 (tensorflow, C언어, MATLAB) file cosmos 2018.03.18 798
67 강화학습 실습 3. FrozonLake - dummy Q-learning file cosmos 2018.02.09 641
66 강화학습 실습 4. FrozonLake - Q-Learning : Exploit & Exploration file cosmos 2018.02.09 504
65 강화학습 실습 8. FrozonLake : DQN - 2013 cosmos 2018.02.27 440
64 Cortex-M3 기반 STM32 세미나 자료입니다. file cosmos 2017.09.12 403
63 강화학습 실습 5. FrozonLake - Q-Learning on Stochastic World file cosmos 2018.02.09 370
62 강화학습 실습 2. FrozonLake 동작 시켜 보기 file cosmos 2018.02.09 365
61 makefile과 linker script 없이 컴파일 하기 [1] file cosmos 2017.09.17 363
60 9월 11일 세미나 진행 내용 cosmos 2018.09.11 344
59 알아두면 쓸데 있는 강화학습 동영상(김태훈 (데브시스터즈)) 도전자 2017.09.11 341
58 임베디드SW·System산업협회 임베디드 인공지능(강화학습) 발표자료 file cosmos 2018.06.08 306
57 강화학습 실습 7. FrozonLake : Q-network cosmos 2018.02.11 293