본문 바로가기

BITS

[Reinforcement Learning in Finance] Options and Option pricing Reinforcement Learning in Finance 에 관한 testing 환경을 조성- 유연하고 확장성을 지님- discrete action 과 continuous action 을 비교- hedging, trading, pricing in financial market 의 문제를 다룸 Black Scholes Merton (BSM) Model- 현대 finance의 cornerstone이 되는 model Corporate Default: The Merton Model- Merton Model은 한개의 회사에 대해 단순화하는데 이는 firm value 라고 불리는 single asset을 가지고 있다. - firm은 equity holders 에 의해 운영되는데, 만약 time T에 firm의 ..
[Reinforcement Learning in Finance] MDP & RL: Action Value Function 이전 포스팅에서 value function 과 optimal value function 그리고 bellman optimality equation에서 numerical solution으로 해결할수 있는지 다뤘다. - optimal policy는 optimal value function 을통해서 구할수 있다.- 그러나 더 action-value function을 이용하면 더 쉽게 구할수 있다.$V_t^\pi (s) = E[\sum_n \gamma^n R(s_n, a_n) | s_0 = s,\pi]$- 현재 state에만 관련된 policy 파이에 대한 value function는 Reinforcement Learning Agent에게 무엇을 해야하는지 알려주지 않는다. - 그러나 action-value fu..
[Reinforcement Learning in Finance] MDP & RL: Value Iteration and Policy Iteration Time homogeneous market decision process에서 value function은 시간과 독립적이다.- 이러한 경우에 bellman optimality ㄷquation은 numerical methods를 이용하여 계산하는single function에 대한 non-linear equation이다. - 이러한 방법은 value iteration이라고 하는데, state action space가 discrete 하고 작은 경우에, 간단하고 빠른 솔루션을 제공한다. Bellman Equation for optimal value function$V^*(s) = R(s) + max_{a \in A} \gamma \sum_{s' \in S} p(s'|s,a)V^*(s')$Value Iterat..
[Reinforcement Learning in Finance] MDP & RL: Value Function and Bellman Equation Markov Decision Process Model 의 목표는 expected total reward를 최대화 하는것이다.- 이러한 문제는 바로 해결되야하지만, reward는 미래의 일이기 때문에 어떤 action이 state에서 취해질지 policy를 통해서결정된다. 동일한 MDP 문제에서 어떻게 possible policies를 quantitatively 비교할수 있는가?- 시작되는 state가 다르면 다른 total rewards가 나올수 있다. - 이러한 환경들을 고려한 total cumulative reward 를 value function 이라고 부른다.$V_0^\pi = E[R_0(s0, a0) + \gamma R_1 (s_1, a_1) + ... | s_0] = E[\sum_n \gamm..
[Reinforcement Learning in Finance] MDP and RL: Decision Policies 이번 포스트는 MDP를 위한 expected total rewards를 실제로 어떻게 최대화하는 지에 관한 것이다.- 강화학습의 목표는 expected total reward를 최대화하는 것에 있다.- 이는 폴리시에 대한 최적의 선택을 통해 얻을수 있다. $\pi: S \mapsto A$- 이러한 폴리시는 현재 환경의 상태인 $S_t$를 인식하여 action A를 행하게 한다. 즉, $a_t = \pi (s_t)$ - 만약에 policy function이 conventional function of it's argument $S_t$라면, 결과인 $a_t$ 는 single number 이다. - 즉, policy function이 $\pi(s) = \frac{s}{2}$ 와 같을때 각각의 s에 대한 값으..
[Reinforcement Learning in Finance] Introduction to Markov Decision Processes and Reinforcement Learning in Finance Bellman equation and their relation to reinforcement learning Recap- 강화학습은 각 단계에서 최적의 action을 결정하는 sequential decision making 의 environment 에서 교류하는 agent와 관련한다. 이러한 행위를 action tasks 라고 부른다. - 현재 environment의 상태인 State($S_t$) 에 대한정보를 받는데, 이때 environment은 복잡한 dynamics로 구성되있기 때문에,강화학습의 tasks는 planning과 forecasting을 구성해야한다. - 장기적인 목적을 달성하기 위해서 각 단계에서 agent는 Action($A_t$) 을 통해 environment의 state에 영향을..