close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

David Silver  교수님 강의 4장, model-free prediction 부분 정리한 노트입니다.

 

monte carlo와 temporal difference 방법으로 value function을 prediction 하는 내용이고,

 

eligibility trace를 이용해서 batch episode의 value function을 구하는 방법도 있습니다.

번호 제목 글쓴이 날짜 조회 수
공지 강남 Dynamics 연구실 모임 안내 모두의연구소 2016.08.08 2026
99 redundancy anlaysis of cooperative dual arm manipulators_part1 file 김경민 2019.03.15 18
» [강화학습 스터디] Silver, Ch.4. Model-free prediction 정리 file 최한철 2019.03.10 36
97 Balancing of humanoid robot based on position control_Part2 file 김경민 2019.03.08 22
96 Balancing of humanoid robot based on position control_Part1 file 김경민 2019.02.23 59
95 Whole body controller(adative tdc+multiple tasks)_Part2 file 김경민 2019.02.16 47
94 Whole body controller(adative tdc+multiple tasks)_Part1 file 김경민 2019.02.08 56
93 [강화학습 스터디] Dynamic Programming 정리 file 최한철 2019.02.08 146
92 Dual manipulator(admittance) Part2 file 김경민 2019.01.25 63
91 Dual manipulator(admittance) Part1 file 김경민 2019.01.18 83
90 Task Transition file 김경민 2019.01.13 117
89 Anaconda, OpenAI 설치 최한철 2019.01.11 116
88 Redundant Manipulators - part2 file 김경민 2019.01.05 50
87 [논문 리뷰] Unified force/impedance controller file 최한철 2019.01.01 116
86 질문이 하나 있어 여기에 올려봅니다. [5] file 헬멧 2018.12.17 208
85 2018 모두콘 발표자료 file 최한철 2018.12.16 256
84 Redundant Manipulators - part1 file 김경민 2018.12.14 76
83 H infinity(Manipulator) 발표자료 file 김경민 2018.12.07 135
82 로봇 제어 시뮬레이터 구축 (V-rep, Matlab 연동) file 김경민 2018.12.01 354
81 H infinity(Euler lagrange system) part4 정리노트 file 김경민 2018.11.16 89
80 H infinity(Euler lagrange system) part3 정리노트 file 김경민 2018.11.10 69