Deterministic Policies
- Multi-period optimization problem 은 action $a_t$를 결정하는 optimal policy는 deterministic policy라고 가정하였다.
- 이러한 Deterministic Policy를 delta function 으로 부터 나온 probability distriubtion 의 식으로 작성하면,
where the optimal deterministic action $a_t^*(x_t)$ is obtained by maximization of the objective with respect to controls $a_t$.
- distribution이 delta function인 stochastic policy는 deterministic policy와 동일하다.
Stochastic Policies
- Problems with deterministic policies: 실제로 거의 존재하지 않고, finance에 적합하지 않다.
- parameter $\theta$와 관련된 어떤 policy $pi$가 있다고 가정해보자. 이러한 parameter들은 유한한양의 sample of data에 의해 결정되고, random 하다. 따라서 이러한 policy도 마찬가지로 random 한것이다.
- Markowitz Portfolio Model: expected returns 에 의한 allocations은 data로 부터 측정된 것이기 때문에 random 하다.
- 이렇게 불확실한 환경에서는 추천되는 allocation의 불확실성에 대해서 측정하는 것이 필요하다.
- 단순히 하나의 숫자만 제공한다면, 모델이 이러한 상황에 대해서 얼마나 확실성을 가지고 있는지 알수 없기 때문이다.
- model misspecifications, model timing lags, human errors 등의 이유로 demonstrated data는 sub-optimal 하다.
- 이러한 모델에서 만약 deterministic policy를 사용하게 된다면, 데이터는 0의 확률을 가지게 될것이다.
--> 따라서 stochastic policies 를 이용해야한다.
- Stochastic policy는 현재 상태의 $s_t$에 대하여 parameter $\theta$를 이용한 action $a_t$의 valid 한 확률 분포이다.
$\pi_\theta = \pi_\theta(a_t|x_t)$ (also depend on predictors $z_t$ - 단순화를 위해 여기서 미사용)
- Stochastic policy를 사용한다는것은 action에 대해서 probabilistic model을 갖는것을 의미하고, 이는 과거 또는 미래 데이터에서 시뮬레이션 될 수 있다.
Portfolio Optimization with Stochastic Policies
maximize $E_{q\pi}[\sum_{t'=t}^{T-1} \gamma^{t'-t} \hat{R}_{t'}(x_{t'},a_{t'})]$
- Here $E_{q\pi}[\bullet]$ stands for expectations with respect to path probabilities defined according to the third line.
Reference Policy
- we assume that we are given a probabilistic reference "prior" policy $\pi_0(a_t | x_t).
- It can be based on a parametric model, past historic data, etc.
- we will build a method that modifies prior or reference policies such that a new updated posterior policy will be consistent with the data.
- We will use a simple Gaussian reference policy
$\pi_0(a_t|x_t) = \frac{e^{-\frac{1}{2}(a_t-\hat{a}(x_t))^T \sum_a^{-1}(a_t-\hat{a}(x_t))}}{\sqrt{(2\pi)^N|\sum_a|}}$
where, $\hat{a}(x_t) = \hat{A}_0 + \hat{A}_1x_t$, state $x_t$에 대한 linear function을 가지고 있다.
- coefficient $A_0$와 $A_1$은 signal $z_t$에 의해 결정되지만, 이는 Bayesian Upodates에서 반영될것이기때문에 constant coefficient로 $A_0$와 $A_1$ 사용한다.
- covariance matrix sigma a 의 경우, 모든 주식에 대해서 same correlation이나 same covariance를 사용한다. 그러면 전체 matrix는 2개의 숫자로 parameterized 될수 있다.
QUIZ: Select all correct answers:
1. Portfolio optimization with stochastic policy amounts to maximization with respect to a policy distribution, rather than a policy itself (as it is now stochastic).
2. A policy πθ(a) is called stochastic if it varies with variation of fitted parameters θ by more that 5%.
3. A deterministic policy can be obtained from a Gaussian policy in the limit Σa → 0.
4. A deterministic policy can be obtained from a Gaussian policy in the limit Σa → ∞.
5. A stochastic policy πθ(a) is a probability distribution for action a.
Answert: 1,3,5
'BITS' 카테고리의 다른 글
[Machine Learning by Stanford] Introduction - What is Machine Learning (0) | 2019.03.29 |
---|---|
[Machine Learning by Stanford] Introduction - Welcome (0) | 2019.03.25 |
[Reinforcement Learning in Finance] Forward and Inverse Optimization (0) | 2019.02.13 |
[Reinforcement Learning in Finance] One Period Rewards (0) | 2019.02.13 |
[Reinforcement Learning in Finance] Portfolio Model (0) | 2019.02.12 |