본문 바로가기

BITS

[Reinforcement Learning in Finance] Forward and Inverse Optimization

Forward Portfolio Optimization Problem

A multi-period risk and cost-adjusted reward maximization problem: 

maximize: $E_t[\sum_{t'=t}^{T-1} \gamma^{t'-t} \hat{R}_{t'}(x_{t'},a_{t'})]$

- expected sum of discounted one-step rewards from all future periods.

- $\gamma$ is a discount factor (1과 가까운)


$\hat{R}_{t}(x_{t},a_{t})] = a_t^TR_{aat}a_t + x_t^TR_{xxt}x_t+a_t^TR_{axt}x_t + a_t^TR_{at} + x_t^TR_{xt}$

- states $s_t$, actions $a_t$에 대해서 quadratic 하다. 


w.r.t  $a_t = \left(\begin{array}{rrr}u_t^+ \\u_t^- \end{array}\right) \geq 0,$

- non-negative이다.


subject to $u_t \in A_t, x_t + u_t \in Z_t$

- action $a_t$ 에 관해 Trajan Constraints가 적용, $z_t$는 다른 assets의 new holding에 constraint가 적용

- Here $ 0 < \gamma \leq 1$ is a discount factor, and $A_t, Z_t$ are set of constraints.

- The sum over $t' = [t, ..., T-1]$ does not include the last period $t' = T$ because the last action is fixed. 


Convex Optimization

- reward function 은 $x_t$와 $a_t$에 대한 convex function. 

- constraints $a_t$와 $z_t$가 convex라면, 전체 문제가 convex 이고 convex 문제 해결법을 따러야한다. 

("Multi-period Trading via Convex Optimization S. Boyed et. al." 에서 제시됨)


Examples of Constraints

- 주어진 문제에 따라서 다른 trading constraint $A_t$, 나 holding constraint $Z_t$ 가 적용된다.

- 예를들면, Pension Funds는 asset을 short sell할수 없기 때문에, long only constraint 가 적용된다. 

Long only: $x_t + u_t \geq 0 $ 


- 또다른 예로, short sell을 할수 있는 institution의 경우는 새로운 position에 대해서 제약이 있다. 

Limits on asset holdings: $x_{min} \leq x_t + u_t \leq x_{max}


- 전체 short position 양의 대한 제약이 있는 경우, Leverage Constraint 가 적용된다.

Leverage constraint: $\sum_{i=1}^N | x_{it} + u_{it} | \leq L_{max}v_t$

- 포지션의 합을 초과하는 양을 leverage라고 한다.


- mimimum cash balance 제약이 있는 경우,

$b_t \geq b_{min}$


이러한 제약들은 convex constraint이고, 이들을 적용하면 high dimensional portfolio에 대한 관리도 가능해진다.


Forward (conventional) Portfolio Optimization

Task: 최적의 포트폴리오를 위한 trading strategy 구축

Given: objective function, terminal and initial conditions, constraints

Needs: a dynamic model for prices $p_t$ and signals $z_t$

- sensitive to details of dynamics and forecast for signals $z_t$ --> translate into errors in the optimal portfolio allocations


One-Step Portfolio Optimization

Special case: one-step optimization (위의 문제가 복잡하기 떄문에 좀 단순화한단계)

Task: optimal single step strategy를 찾는것 (asset allocations)

Given: objective function, terminal and initial conditions, constraints

A variance-adjusted reward is equivalent to the Markowitz portfolio model

- sensitive to details of dynamics and forecast for signals $z_t$ --> translate into errors in the optimal portfolio allocations

- 이러한 문제를 역으로 해결하는 방법이 있는데 이를 Inverse Optimization 이라고 한다.


Inverse Optimization

우리가 이미 optimal portfolio allocation을 알고 있을떄, One-step Optimization을 역으로 바꿔서 objective function에서 이러한 값을 만드는데 관련된 parameter를 찾는것

Given: 최적의 asset allocation

Task: objective(reward) function이나 이를 나타내는 parameter를 찾을것

- For the Markowitz portfolio model, this produces a "market view" of signals $z_t$

- Markowitz's optimization의 one-step portfolio의 경우, portfolio를 가지고 Markowitz optimal portfolio를 위해 formula를 invert 해서, 예측을 위한 predictors $z_t$ 의 값을 얻게된다. 

- 이러한 접근법은 Black-Litterman (BL) (1992)에 처음 제시되었는데, 예를 들어 S&p500 포트폴리오를 가지고 invert하여 어떻게 시장이 future values of predictors $z_t$를 예측하는지 알려준다. 

- 초기의 BL은 이런방법은 아니었지만, BL-Model이 Bertsimas et. al (2012)에서 재해석되었다.

Usage: assess a value of 'private' signals $z'_t$


Dynamic Inverse Portfolio Optimization

- 동일한 Inverse Optimization approach to a dynamic and multi-period setting을 Portfolio Optimization에 적용해본다.

Given: an optimal sequential asset allocation (actions)

Task: reward function 이나 parameter를 찾고, action(investment) policy를 찾는다. 

Two possible settings: a proprietary portfolio, or a market portfolio

- proprietary portfolio 나 특정 trader나 broker의 action을 통해 trader의 모델을 만든다. 

- market porfolio --> BL모델처럼, signals $z_t$에 대한 dynamic market view를 갖게 된다. 

Usage: assess a value of  'private' signals $z'_t$


QUIZ: Select all correct answers:

1. In inverse portfolio optimization, we know the optimal policy function, and need to find the reward.

2. In forward portfolio optimization, we are given the reward function, and have to find an optimal policy (optimal portfolio).

3. The Black-Litterman model solve a single-step inverse portfolio optimization problem for the market portfolio.

4. In inverse portfolio optimization, we know the observed actions, and need to find the reward and policy functions.

5. The Black-Litterman model solves a dynamic inverse portfolio optimization problem for the market portfolio.


Answer: 2,3,4