본문 바로가기

BITS

[Reinforcement Learning in Finance] One Period Rewards

Instantaneous Rewards

- One Period Reward 또는 negative costs

$r_t - r_f1 = W_tz_t - M_t^Tu_t + \epsilon_t$ 의 excess return equation을

$\delta v_t = (r_r - r_f1)^T(x_t + u_t)$의 portfolio change equation으로 변경한다. 

- 위의 식은 $u_t$에 해당하는 action을 취함으로써 instantaneous random reward를 발생시킨다. 

$R_t^{(0)}(x_t,u_t) = (W_tz_t - M_t^Tu_t + \epsilon_t)^T(x_t + u_t)$ 

- 시장 상황을 반영하고 있는 $M_t$에 관한 이 공식은 action $u_t$에 대하여 linear 하지않고 quadratic하다. 

- 이 공식에 instantaneous market impact와 trasaction fees, risk penalty에 해당하는 negative rewards를 추가해야한다. 


Risk Penalty

- risk penalty는 negative reward로 적용된다.

- simple quadratic risk measure로써 variance of instantaneous reward $R_t^{(0)}(x_t, u_t) 를 선택한다. 

$R_t^{(risk)}(x_t, u_t) = -\lambda Var_t[R_t^{(0)}(x_t, u_t)|x_t + u_t]$

$ = -\lambda (x_t+u_t)^T \sum_t(x_t + u_t)$

- 여기서 $\lambda$는 risk aversion parameter이고, $\sum_t$는 noise covariance matrix이다. 


Fee Penalty 

- transaction costs

- 각 비용은 $u_t$의 부호에 따라 결정된다.

- 두 개의 action variables 로써 양수인 (non-negative) $u_it^+, u_it^-$ 의 차이를 $u_it$ 로 나타낸다.

$u_{ti} = u_{ti}^+ - u_{ti}^-, |u_{it}| = u_{it}^+ + u_{it}^-, u_{it}^+, u_{it}^- \geq 0,$ 

$u_{ti} = u_{ti}^+ if u_{ti} > 0, 그리고 u_{ti} = u_{ti}^- if u_{ti} < 0.$ 


- instantaneous fee (transaction costs) penalty:

$R_t^{(fee)}(x_t, u_t) = -\kappa_t^{+T}u_t^+ - \kappa_t^{-T}u_t^-$


Market Impact Penalty

- 주식을 거래한 이후에 시장에 미치는 영향에 대한 cost를 산정

$R_t^{(impact)}(x_t, u_t) = -x_t^T(\theta_t^{+T}u_t^{+} + \theta_t^{-T}u_t^- + \Phi_t^Tz_t)$

- 주식거래주문의 크기 ($\theta$), signal($\Phi$) 에 의해 이러한 cost가 산정됨


Risk- and Cost-adjusted One-step Reward

- 위에서 소개된 모든 고려사항을 더해서 아래와 같은 공식이 나온다.

$R_t(x_t, u_t) = R_t^{(0)}(x_t, u_t) + R_t^{(risk)}(x_t, u_t) + R_t^{(impact)}(x_t,u_t)+R_t^{(fee)}(x_t,u_t)$

- Random Reward이며, first term은 noise epsilon t에 의해 결정되고, 나머지 term들은 주어진 $x_t, u_t$에 의해 결정된다. 

- 주어진 action의 $u_t = u_t^+ = u_t^-$ 에 따른 expected reward one-step reward는

$\hat{R}_t(x_t, u_t) = \hat{R}_t^{(0)}(x_t, u_t) + \hat{R}_t^{(risk)}(x_t, u_t) + \hat{R}_t^{(impact)}(x_t,u_t)+\hat{R}_t^{(fee)}(x_t,u_t)$

- 여기서 $\hat{R}_t^{(0)}(x_t, u_t) = E_{t,u}[R_t^{(0)}(x_t, u_t)] $이고, 
$E_{t,u}[\dot] = E[\dot\x_t,u_t] 는 market return을 다음 period의 실현하는 평균값

One-Step Reward as a Quadratic Functional

- one-step expected reward를 states와 actions에 관한 quadratic function으로 쓰면, 

$\hat{R}_t(x_t, u_t) = a_t^TR_{aaa}a_t+x_t^TR_{xxt}x_t+a_t^TR_{axt}x_t+a_t^TR_{at}+x_t^TR_{xt}$

where,


- $R_{aat}, R_{xxt}, R_{axt}$ 는 risk aversion $\lambda$, market input metrics M, efficients $\theta$에 의해 결정된다. 이것들이 모두 0이라면, one-step rewards는 quadratic 이아닌 linear해진다.


QUIZ: Select all correct answers:

1. The total reward is made of an expected reward and transaction costs (fees) penalty.

2. Rewards in the model are non-random and quadratic in states and actions.

3. Rewards in the model are random and quadratic in states and actions, the random part of the reward is Rt(rand)(xt,ut)=εtT(xt +ut).

4. Rewards in the model are non-random and linear in states and actions.

5. The total reward is made of an expected reward and risk, instantaneous trading impact, and fees penalties.



Answer: 3,5