Markov Decision Process 썸네일형 리스트형 [Reinforcement Learning in Finance] MDP & RL: Value Function and Bellman Equation Markov Decision Process Model 의 목표는 expected total reward를 최대화 하는것이다.- 이러한 문제는 바로 해결되야하지만, reward는 미래의 일이기 때문에 어떤 action이 state에서 취해질지 policy를 통해서결정된다. 동일한 MDP 문제에서 어떻게 possible policies를 quantitatively 비교할수 있는가?- 시작되는 state가 다르면 다른 total rewards가 나올수 있다. - 이러한 환경들을 고려한 total cumulative reward 를 value function 이라고 부른다.$V_0^\pi = E[R_0(s0, a0) + \gamma R_1 (s_1, a_1) + ... | s_0] = E[\sum_n \gamm.. [Reinforcement Learning in Finance] MDP and RL: Decision Policies 이번 포스트는 MDP를 위한 expected total rewards를 실제로 어떻게 최대화하는 지에 관한 것이다.- 강화학습의 목표는 expected total reward를 최대화하는 것에 있다.- 이는 폴리시에 대한 최적의 선택을 통해 얻을수 있다. $\pi: S \mapsto A$- 이러한 폴리시는 현재 환경의 상태인 $S_t$를 인식하여 action A를 행하게 한다. 즉, $a_t = \pi (s_t)$ - 만약에 policy function이 conventional function of it's argument $S_t$라면, 결과인 $a_t$ 는 single number 이다. - 즉, policy function이 $\pi(s) = \frac{s}{2}$ 와 같을때 각각의 s에 대한 값으.. 이전 1 다음