본문 바로가기

BITS

[Reinforcement Learning in Finance] Reinforcement Learning for Portfolios

Deterministic Policies

- Multi-period optimization problem 은 action $a_t$를 결정하는 optimal policy는 deterministic policy라고 가정하였다.

- 이러한 Deterministic Policy를 delta function 으로 부터 나온 probability distriubtion 의 식으로 작성하면, 

$\pi (a_t|x_t) = \delta (a_t - a_t^*(x_t))$,

where the optimal deterministic action $a_t^*(x_t)$ is obtained by maximization of the objective with respect to controls $a_t$. 

- distribution이 delta function인 stochastic policy는 deterministic policy와 동일하다.


Stochastic Policies

- Problems with deterministic policies: 실제로 거의 존재하지 않고, finance에 적합하지 않다. 

- parameter $\theta$와 관련된 어떤 policy $pi$가 있다고 가정해보자. 이러한 parameter들은 유한한양의 sample of data에 의해 결정되고, random 하다. 따라서 이러한 policy도 마찬가지로 random 한것이다. 

- Markowitz Portfolio Model: expected returns 에 의한 allocations은 data로 부터 측정된 것이기 때문에 random 하다.

- 이렇게 불확실한 환경에서는 추천되는 allocation의 불확실성에 대해서 측정하는 것이 필요하다.

- 단순히 하나의 숫자만 제공한다면, 모델이 이러한 상황에 대해서 얼마나 확실성을 가지고 있는지 알수 없기 때문이다. 

- model misspecifications, model timing lags, human errors 등의 이유로 demonstrated data는 sub-optimal 하다. 

- 이러한 모델에서 만약 deterministic policy를 사용하게 된다면, 데이터는 0의 확률을 가지게 될것이다. 

--> 따라서 stochastic policies 를 이용해야한다. 


- Stochastic policy는 현재 상태의 $s_t$에 대하여 parameter $\theta$를 이용한 action $a_t$의 valid 한 확률 분포이다. 

$\pi_\theta = \pi_\theta(a_t|x_t)$ (also depend on predictors $z_t$ - 단순화를 위해 여기서 미사용)

- Stochastic policy를 사용한다는것은 action에 대해서 probabilistic model을 갖는것을 의미하고, 이는 과거 또는 미래 데이터에서 시뮬레이션 될 수 있다.


Portfolio Optimization with Stochastic Policies

maximize $E_{q\pi}[\sum_{t'=t}^{T-1} \gamma^{t'-t} \hat{R}_{t'}(x_{t'},a_{t'})]$



- Here $E_{q\pi}[\bullet]$ stands for expectations with respect to path probabilities defined according to the third line. 


Reference Policy

- we assume that we are given a probabilistic reference "prior" policy $\pi_0(a_t | x_t).

- It can be based on a parametric model, past historic data, etc. 

- we will build a method that modifies prior or reference policies such that a new updated posterior policy will be consistent with the data. 

- We will use a simple Gaussian reference policy

$\pi_0(a_t|x_t) = \frac{e^{-\frac{1}{2}(a_t-\hat{a}(x_t))^T \sum_a^{-1}(a_t-\hat{a}(x_t))}}{\sqrt{(2\pi)^N|\sum_a|}}$

where, $\hat{a}(x_t) = \hat{A}_0 + \hat{A}_1x_t$, state $x_t$에 대한 linear function을 가지고 있다.

- coefficient $A_0$와 $A_1$은 signal $z_t$에 의해 결정되지만, 이는 Bayesian Upodates에서 반영될것이기때문에 constant coefficient로 $A_0$와 $A_1$ 사용한다. 

- covariance matrix sigma a 의 경우, 모든 주식에 대해서 same correlation이나 same covariance를 사용한다. 그러면 전체 matrix는 2개의 숫자로 parameterized 될수 있다. 


QUIZ: Select all correct answers:

1. Portfolio optimization with stochastic policy amounts to maximization with respect to a policy distribution, rather than a policy itself (as it is now stochastic).

2. A policy πθ(a) is called stochastic if it varies with variation of fitted parameters θ by more that 5%.

3. A deterministic policy can be obtained from a Gaussian policy in the limit Σa
→ 0.

4. A deterministic policy can be obtained from a Gaussian policy in the limit Σa
→ ∞.

5. A stochastic policy πθ(a) is a probability distribution for action a.


Answert: 1,3,5