사이트 로그인
2017.10.31 11:23
안녕하세요.
이진형태의 결과 또는 리워드의 경우, 하나의 값만 리워드로 주면되는데, 아웃풋이 saftmax 결과일 경우(output: 11) 리워드도 아웃풋에 맞추어 주어야 하겠지요?
이 때의 action의 참이 5번째의 값이라면, 리워드도 5번째가 맞았다는 것을 알려주거나, 틀렸지만 5번째가 참이라는 것을 알려 주어야 하는데, 카트폴게임에서 처럼 1이나 0값을 준다면, 11개의 디멘션에 다 리워드를 주어야 하는지, 참값인 5번째에만 리워드를 주어야 하는지 궁금합니다.
혹은 multiclassification reward를 주는 방법이 따로 있는지 문의 드립니다.
감사합니다.