subsay
벨만 기대 방정식가치함수는 어떤 상태의 가치에 대한 기대를 나타냅니다.어떤 상태의 가치함수는 에이전트가 그 상태로 갈 경우에 앞으로 받을 보상의 합에 대한 기댓값입니다.가치함수는 현재 에이전트의 정책에 영향을 받는데, 이 정책을 반영한 식이 벨만 기대 방정식이라고 합니다. vπ(s) = Eπ[R(t+1) + γvπ(S(t+1))|St=s] 벨만 기대 방정식이라고 하는 이유는 식에 기댓값의 개념이 들어가기 때문입니다.이 벨만 방정식은 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것입니다. 벨만 방정식은 강화학습에서 상당히 중요한 부분을 차지합니다.벨만 방정식이 강화 학습에서 왜 그렇게 중요한 위치를 차지하고 있는 것일까요?앞에서 정의했던 가치함수의 정의를 다시 살펴 봅시다. v..
가치함수에이전트가 학습할 수 있도록 문제를 MDP로 정의했습니다.에이전트는 MDP를 통해 최적 정책을 찾으면 됩니다.하지만 에이전트가 어떻게 최적 정책을 찾을 수 있을 까요? 어떠한 특정한 상태에 에이전트가 있다고 가정해봅시다.이 에이전트 입장에서 어떤 행동을 하는 것이 좋은지를 알 수 있을까요?현재 상태에서 앞으로 받을 보상들을 고려해서 선택해야 좋은 선택을 할 수 있습니다.하지만 아직 받지 않은 많은 보상들을 어떻게 고려할 수 있을까요?이때 나오는 개념이 바로 가치함수 입니다. MDP -> 가치함수 -> 행동 선택 현재 시간 t로부터 에이전트가 행동을 하면서 받을 보상들을 합한다면 R(t+1) + R(t+2) + R(t+3) + R(t+4) + R(t+5) + R(t+6) + ... 보상은 행동을 했..
MDPMarkov Decision Process순차적 행동 결정 문제 MDP의 구성 요소1. 상태(state)2. 행동(action)3. 보상(reward)4. 정책(Policy) 상태 S는 에이전트가 관찰 가능한 상태의 집합이다. S = {(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5))} 어떤 t에서의 상태 St는 정해져 있지 않습니다. 이처럼 어떤 집합 안에서 뽑을 때마다 달라질 수 있는 것을"확률변수"라고 합니다. "시간 t에서 상태 St가 어떤 상태 s다" St = s 행동 에이전트가 상태 St에서 할 수 있는 가능한 행동의 집합은 A "시간 t에서 에이전트가 특정한 행동 a를 했다" At = a At는 어떤 t라는 시간에서 집합 A에서 선택한 행동입니다.t라는 시간에 에..