본문 바로가기

Stochastic Policies

[Reinforcement Learning in Finance] Reinforcement Learning for Portfolios Deterministic Policies- Multi-period optimization problem 은 action $a_t$를 결정하는 optimal policy는 deterministic policy라고 가정하였다.- 이러한 Deterministic Policy를 delta function 으로 부터 나온 probability distriubtion 의 식으로 작성하면, $\pi (a_t|x_t) = \delta (a_t - a_t^*(x_t))$,where the optimal deterministic action $a_t^*(x_t)$ is obtained by maximization of the objective with respect to controls $a_t$. - distributi..

이전 1 다음

티스토리툴바