Risk Penalty 썸네일형 리스트형 [Reinforcement Learning in Finance] One Period Rewards Instantaneous Rewards- One Period Reward 또는 negative costs$r_t - r_f1 = W_tz_t - M_t^Tu_t + \epsilon_t$ 의 excess return equation을$\delta v_t = (r_r - r_f1)^T(x_t + u_t)$의 portfolio change equation으로 변경한다. - 위의 식은 $u_t$에 해당하는 action을 취함으로써 instantaneous random reward를 발생시킨다. $R_t^{(0)}(x_t,u_t) = (W_tz_t - M_t^Tu_t + \epsilon_t)^T(x_t + u_t)$ - 시장 상황을 반영하고 있는 $M_t$에 관한 이 공식은 action $u_t$에 대하여 lin.. 이전 1 다음