close_btn
로그인, 회원가입후 더 많은 혜택을 누리세요 로그인 회원가입 닫기

Off-policy TD(1) 수렴에 관한 질문있습니다!

임성수 2017.12.28 10:03 조회 수 : 102 추천:1

안녕하세요, 모두연 모임에는 참석 못했는데  궁금한 게 있어 질문 올립니다!

Sutton 교수님의 책 Ch.11: Off-Policy Methods with Approximation에서 Deadly Triad에 관한 설명이 나오는데

1) Bootstrap
2) Off-Policy

3) Function Approximation 이 세 가지에 다 해당하면 수렴을 기대할 수 없습니다. 

 

그러면 Off-policy with Function Approximation TD(1)은 수렴이 보장되나요 안되나요??

TD(1)은 Monte-Carlo Method로도 볼 수 있는데 Offline일 때면 일치하는데

Online일 때는 eligibility trace를 사용해 약간의 bootstrap이 있습니다. 

헷갈려서 질문 올립니다 ㅠㅠ

 

감사합니다!

번호 제목 글쓴이 날짜 조회 수
공지 강화학습 연구 실습반 정기모임 이용안내 [1] 모두의연구소 2016.11.03 5414
60 3월 8일 발표자료 - IPU(Intelligence Processor Unit) 소개 file cosmos 2018.03.08 245
59 1월 4일 발표자료입니다. file Hye 2018.01.04 285
» Off-policy TD(1) 수렴에 관한 질문있습니다! 임성수 2017.12.28 102
57 12월 07일 발표자료입니다. file cosmos 2017.11.30 159
56 11월 9일 발표자료입니다. file cosmos 2017.11.09 160
55 [논문요약] Learning to Poke by Poking: Experiential Learning of Intuitive Physics file ryu 2017.06.30 160
54 [논문요약] Beating Atari with Natural Language Guided Reinforcement Learning file 백병인 2017.04.27 241
53 오픈 토론방 링크(카카오톡, 잔디) 백병인 2017.04.21 401
52 Lecture 4 file Estia 2017.04.18 185
51 Lecture2 발표자료 file 백병인 2017.04.13 188
50 lecture 2 논문요약: A Machine Learning Approach to Visual Perception of Forest Trails for Mobile Robots dhfromkorea 2017.04.12 109
49 Lecture 2 논문 리뷰 on Imitation learning file maestroj 2017.04.11 184
48 Lecture 2의 논문 리뷰: Learning real manipulation tasks from virtual demonstrations using LSTM file 오맹달 2017.04.11 111
47 4월 6일 스터디 End to End Learning for Self-Driving Cars 논문 review file 조성광 2017.04.11 961
46 Sutton 교수 Textbook 링크 변경 백병인 2017.04.10 243
45 강화학습 EDU 시즌2 진행일정 (4/6~) 백병인 2017.04.07 255
44 3/23 lab06 test 결과 file oasishun 2017.03.23 73
43 GAN 이번주 목요일 발표 자료입니다. file maestroj 2017.03.20 226
42 optimizer maestroj 2017.03.09 168
41 Github Repository (RL_Edu1) 생성 - 멤버권한 요청받습니다. 백병인 2017.03.07 73