close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

강화학습는 "마르코드 의사결정 과정" 정의를 기반으로 합니다.

마르코드 의사결정 과정을 이해하기 위해서는 아래와 같은 순으로 이해가 필요합니다.

  - 확률 변수와 확률 분포 -> 이산 시간 확률과정 -> 마르코프 체인 -> 마르코프 결정 과정

 

마르코프 결정 과정을 바탕으로 이를 푸는 과정이 다이나믹 프로그래밍와 강화학습으로 나눠지게 됩니다.

마르코프 결정 과정을 이해하고 나서는 다이나믹 프로그래밍의 이해가 필요합니다.

그 이후에 강화학습에 이해하는 과정이 필요합니다.

 

관련 사이트 정리해서 올립니다.

관련해서 좋은 사이트가 있으면 댓글 달아 주세요

 

 - 전반적으로 정리한 사이트

   http://secom.hanbat.ac.kr/or/chapter1/right04.html


 

1. 이산 시간 확률 과정

   https://en.m.wikipedia.org/wiki/Stochastic_process

 

   - 확률과정

      https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EA%B3%BC%EC%A0%95

 

   - 확률과정의 동영상

      https://www.youtube.com/watch?v=qq4CenNTcc8

      https://www.youtube.com/watch?v=t7i_K8z9A70&t=6s

 

   - 확률 변수

      https://namu.wiki/w/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98

      http://cau.ac.kr/~orist/2006_2/STAT/ch5_2p.pdf

      http://math7.tistory.com/19

 

   - 확률 변수와 확률 분포

      https://www.youtube.com/watch?v=JjX4EPhfUps

      https://cveai.github.io/%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5/2018/02/14/rvariable.html

 

2. 마르코프 체인

    https://ko.khanacademy.org/computing/computer-science/informationtheory/moderninfotheory/v/markov_chains

 

    https://ko.wikipedia.org/wiki/%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84_%EC%97%B0%EC%87%84

 

    http://electronicsdo.tistory.com/entry/Markov-chain-%EB%A7%88%EC%BD%94%ED%94%84-%EC%B2%B4%EC%9D%B8

 

3. 마르코프 의사 결정 프로세스

    http://dsba.korea.ac.kr/wp/wp-content/seminar/Reinforcement%20Learning/RL_week2_Markov%20Decision%20Processes_%EC%9D%B4%EA%B8%B0%EC%B0%BD.pdf

 

    https://norman3.github.io/rl/docs/chapter04.html

 

    http://passi0n.tistory.com/m/80

 

4. 마르코프라는 사람

 

    https://ko.wikipedia.org/wiki/%EC%95%88%EB%93%9C%EB%A0%88%EC%9D%B4_%EB%A7%88%EB%A5%B4%EC%BD%94%ED%94%84

 

    http://www-groups.dcs.st-and.ac.uk/~history/Biographies/Markov.html

 

5. 강화학습 정리

    http://daeson.tistory.com/category/Reinforcement%20Learning

    https://www.facebook.com/SKTBrain/photos/pcb.311444575893030/311444102559744/?type=3&theater

 

번호 제목 글쓴이 날짜 조회 수
공지 RL4RWS 이용 안내 모두의연구소 2017.09.04 2211
74 OpenAI GYM 설치/구동법 (리눅스/윈도우즈) file 통통배 2017.09.26 2612
73 강화학습 실습 6. Tensorflow 설치 및 간단한 테스트 cosmos 2018.02.11 1891
72 [아두이노] 초음파 센서 연결 예제 [2] file 쪼알 2018.02.16 1036
71 아두이노 설치 및 초음파센서, 모터, 블루투스 예제 사이트 정리 cosmos 2018.02.01 1022
70 강화학습 실습 1. Python과 OpenAI Gym 설치 및 간단한 동작 file cosmos 2018.02.09 877
» 이산 시간 확률 과정, 마르코프 체인, 마르코프 의사결정 과정 관련 사이트 정리 cosmos 2018.01.18 830
68 신경망 구현 비교 분석 (tensorflow, C언어, MATLAB) file cosmos 2018.03.18 626
67 OpenCV를 사용한 Line Detection 후 Steering 정보 추출 과정 cosmos 2018.06.05 611
66 강화학습 실습 3. FrozonLake - dummy Q-learning file cosmos 2018.02.09 468
65 Cortex-M3 기반 STM32 세미나 자료입니다. file cosmos 2017.09.12 346
64 makefile과 linker script 없이 컴파일 하기 [1] file cosmos 2017.09.17 344
63 강화학습 실습 4. FrozonLake - Q-Learning : Exploit & Exploration file cosmos 2018.02.09 338
62 강화학습 실습 8. FrozonLake : DQN - 2013 cosmos 2018.02.27 329
61 알아두면 쓸데 있는 강화학습 동영상(김태훈 (데브시스터즈)) 도전자 2017.09.11 305
60 9월 11일 세미나 진행 내용 cosmos 2018.09.11 303
59 강화학습 실습 5. FrozonLake - Q-Learning on Stochastic World file cosmos 2018.02.09 293
58 강화학습 실습 2. FrozonLake 동작 시켜 보기 file cosmos 2018.02.09 285
57 임베디드SW·System산업협회 임베디드 인공지능(강화학습) 발표자료 file cosmos 2018.06.08 270
56 Frizing을 이용한 회로 완성 file cosmos 2018.03.15 254