본문 바로가기

퐁게임

(1)

강화학습(Reinforcement learning),Policy gradient를 통한 pong게임 학습 이해 글을 시작하기 전, 위 글은 http://keunwoochoi.blogspot.com/2016/06/andrej-karpathy.htm의 포스팅을 제가 이해하기 쉽도록 재정리한 글입니다. 혹시 제 글을 읽고 이해가 가지 않는 부분이 있으시면 저 주소를 참조하시면 될 것 같습니다. 저도 열심히 배우고 있으니 혹시 이상한 부분이 있으면 편하게 댓글 남겨주세요! 1. 강화 학습의 전반적인 흐름과 학습의 어려움 제가 생각하는 강화 학습은 비지도 학습과 지도 학습의 중간 지점에 있는 학습 방법입니다. 지도 학습의 경우 데이터셋과 라벨을 제공합니다. 그렇기에 머신이 특정 데이터셋은 이러한 라벨에 분류되는구나를 학습하게 되고, 그러한 과정이 반복 될 경우 트레이닝 과정에 포함되어 있지 않았던 다른 데이터셋이 들어오더..

이전 1 다음

티스토리툴바