reinforcement learning 썸네일형 리스트형 [Reinforcement Learning in Finance] MDP and RL: Decision Policies 이번 포스트는 MDP를 위한 expected total rewards를 실제로 어떻게 최대화하는 지에 관한 것이다.- 강화학습의 목표는 expected total reward를 최대화하는 것에 있다.- 이는 폴리시에 대한 최적의 선택을 통해 얻을수 있다. $\pi: S \mapsto A$- 이러한 폴리시는 현재 환경의 상태인 $S_t$를 인식하여 action A를 행하게 한다. 즉, $a_t = \pi (s_t)$ - 만약에 policy function이 conventional function of it's argument $S_t$라면, 결과인 $a_t$ 는 single number 이다. - 즉, policy function이 $\pi(s) = \frac{s}{2}$ 와 같을때 각각의 s에 대한 값으.. [Reinforcement Learning in Finance] Introduction to Markov Decision Processes and Reinforcement Learning in Finance Bellman equation and their relation to reinforcement learning Recap- 강화학습은 각 단계에서 최적의 action을 결정하는 sequential decision making 의 environment 에서 교류하는 agent와 관련한다. 이러한 행위를 action tasks 라고 부른다. - 현재 environment의 상태인 State($S_t$) 에 대한정보를 받는데, 이때 environment은 복잡한 dynamics로 구성되있기 때문에,강화학습의 tasks는 planning과 forecasting을 구성해야한다. - 장기적인 목적을 달성하기 위해서 각 단계에서 agent는 Action($A_t$) 을 통해 environment의 state에 영향을.. 이전 1 2 다음