Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

subsay

정리 MDP, 가치함수, 벨만 방정식 본문

강화학습

정리 MDP, 가치함수, 벨만 방정식

subsay 2017. 9. 17. 23:27

MDP 

순차적 행동 결정 문제를 수학적으로 정의한 것이 MDP 입니다.

MDP는 상태, 행동, 보상, 상태 변환 확률, 감가율, 정책으로 구성돼 있습니다.

순차적 행동 결정 문제를 푸는 과정은 더 좋은 정책을 찾는 과정입니다.


가치함수

에이전트가 어떤 정책이 더 좋은 정책인지 판단하는 기준이 가치함수이다.

가치함수는 현재 상태로부터 정책을 따라갔을 때 받을 것이라 예상되는 보상의 합입니다.


에이전트는 정책을 업데이트할 때 가치함수를 사용할 텐데, 보통 가치함수보다는 에이전트가 선택할 각 행동의 가치를 직접적으로 나타내는 큐함수를 사용합니다.


벨만 방정식

현재 상태의 가치함수와 다음 상태 가치함수의 관계식이 벨만 방정식입니다.

벨만 기대 방정식은 특정 정책을 따라갓을 때 가치함수 사이의 관계식이다.


더 좋은 정책을 찾아가다 보면 최적의 정책을 찾을 것입니다.

최적의 정책은 최적의 가치함수를 받게 하는 정책이며, 그 때 가치함수 사이의 관계씩이 벨만 최적 방정식입니다.

'강화학습' 카테고리의 다른 글

벨만 방정식  (1) 2017.09.17
가치함수  (1) 2017.09.17
MDP  (0) 2017.09.17