Instantaneous Rewards
- One Period Reward 또는 negative costs
$r_t - r_f1 = W_tz_t - M_t^Tu_t + \epsilon_t$ 의 excess return equation을
$\delta v_t = (r_r - r_f1)^T(x_t + u_t)$의 portfolio change equation으로 변경한다.
- 위의 식은 $u_t$에 해당하는 action을 취함으로써 instantaneous random reward를 발생시킨다.
$R_t^{(0)}(x_t,u_t) = (W_tz_t - M_t^Tu_t + \epsilon_t)^T(x_t + u_t)$
- 시장 상황을 반영하고 있는 $M_t$에 관한 이 공식은 action $u_t$에 대하여 linear 하지않고 quadratic하다.
- 이 공식에 instantaneous market impact와 trasaction fees, risk penalty에 해당하는 negative rewards를 추가해야한다.
Risk Penalty
- risk penalty는 negative reward로 적용된다.
- simple quadratic risk measure로써 variance of instantaneous reward $R_t^{(0)}(x_t, u_t) 를 선택한다.
$R_t^{(risk)}(x_t, u_t) = -\lambda Var_t[R_t^{(0)}(x_t, u_t)|x_t + u_t]$
$ = -\lambda (x_t+u_t)^T \sum_t(x_t + u_t)$
- 여기서 $\lambda$는 risk aversion parameter이고, $\sum_t$는 noise covariance matrix이다.
Fee Penalty
- transaction costs
- 각 비용은 $u_t$의 부호에 따라 결정된다.
- 두 개의 action variables 로써 양수인 (non-negative) $u_it^+, u_it^-$ 의 차이를 $u_it$ 로 나타낸다.
$u_{ti} = u_{ti}^+ - u_{ti}^-, |u_{it}| = u_{it}^+ + u_{it}^-, u_{it}^+, u_{it}^- \geq 0,$
$u_{ti} = u_{ti}^+ if u_{ti} > 0, 그리고 u_{ti} = u_{ti}^- if u_{ti} < 0.$
- instantaneous fee (transaction costs) penalty:
$R_t^{(fee)}(x_t, u_t) = -\kappa_t^{+T}u_t^+ - \kappa_t^{-T}u_t^-$
Market Impact Penalty
- 주식을 거래한 이후에 시장에 미치는 영향에 대한 cost를 산정
$R_t^{(impact)}(x_t, u_t) = -x_t^T(\theta_t^{+T}u_t^{+} + \theta_t^{-T}u_t^- + \Phi_t^Tz_t)$
- 주식거래주문의 크기 ($\theta$), signal($\Phi$) 에 의해 이러한 cost가 산정됨
Risk- and Cost-adjusted One-step Reward
- 위에서 소개된 모든 고려사항을 더해서 아래와 같은 공식이 나온다.
$R_t(x_t, u_t) = R_t^{(0)}(x_t, u_t) + R_t^{(risk)}(x_t, u_t) + R_t^{(impact)}(x_t,u_t)+R_t^{(fee)}(x_t,u_t)$
- Random Reward이며, first term은 noise epsilon t에 의해 결정되고, 나머지 term들은 주어진 $x_t, u_t$에 의해 결정된다.
- 주어진 action의 $u_t = u_t^+ = u_t^-$ 에 따른 expected reward one-step reward는
$\hat{R}_t(x_t, u_t) = \hat{R}_t^{(0)}(x_t, u_t) + \hat{R}_t^{(risk)}(x_t, u_t) + \hat{R}_t^{(impact)}(x_t,u_t)+\hat{R}_t^{(fee)}(x_t,u_t)$
One-Step Reward as a Quadratic Functional
- one-step expected reward를 states와 actions에 관한 quadratic function으로 쓰면,
$\hat{R}_t(x_t, u_t) = a_t^TR_{aaa}a_t+x_t^TR_{xxt}x_t+a_t^TR_{axt}x_t+a_t^TR_{at}+x_t^TR_{xt}$
where,
- $R_{aat}, R_{xxt}, R_{axt}$ 는 risk aversion $\lambda$, market input metrics M, efficients $\theta$에 의해 결정된다. 이것들이 모두 0이라면, one-step rewards는 quadratic 이아닌 linear해진다.
QUIZ: Select all correct answers:
1. The total reward is made of an expected reward and transaction costs (fees) penalty.
2. Rewards in the model are non-random and quadratic in states and actions.
3. Rewards in the model are random and quadratic in states and actions, the random part of the reward is Rt(rand)(xt,ut)=εtT(xt +ut).
4. Rewards in the model are non-random and linear in states and actions.
5. The total reward is made of an expected reward and risk, instantaneous trading impact, and fees penalties.
Answer: 3,5
'BITS' 카테고리의 다른 글
[Reinforcement Learning in Finance] Reinforcement Learning for Portfolios (0) | 2019.02.13 |
---|---|
[Reinforcement Learning in Finance] Forward and Inverse Optimization (0) | 2019.02.13 |
[Reinforcement Learning in Finance] Portfolio Model (0) | 2019.02.12 |
[Reinforcement Learning in Finance] Intro to RL for Stock Trading (0) | 2019.02.12 |
[Reinforcement Learning in Finance] RL for Stock Trading (0) | 2019.02.12 |