reinforcement learning 썸네일형 리스트형 [Reinforcement Learning in Finance] Reinforcement Learning for Portfolios Deterministic Policies- Multi-period optimization problem 은 action $a_t$를 결정하는 optimal policy는 deterministic policy라고 가정하였다.- 이러한 Deterministic Policy를 delta function 으로 부터 나온 probability distriubtion 의 식으로 작성하면, $\pi (a_t|x_t) = \delta (a_t - a_t^*(x_t))$,where the optimal deterministic action $a_t^*(x_t)$ is obtained by maximization of the objective with respect to controls $a_t$. - distributi.. [Reinforcement Learning in Finance] Forward and Inverse Optimization Forward Portfolio Optimization ProblemA multi-period risk and cost-adjusted reward maximization problem: maximize: $E_t[\sum_{t'=t}^{T-1} \gamma^{t'-t} \hat{R}_{t'}(x_{t'},a_{t'})]$- expected sum of discounted one-step rewards from all future periods.- $\gamma$ is a discount factor (1과 가까운) $\hat{R}_{t}(x_{t},a_{t})] = a_t^TR_{aat}a_t + x_t^TR_{xxt}x_t+a_t^TR_{axt}x_t + a_t^TR_{at} + x_t^TR_{xt}.. [Reinforcement Learning in Finance] Portfolio Model Portfolio Model- simple한 포트폴리오 모델- N 개의 주식이 시간 t에 시장가격이 벡터 $P_t$로 구성되어 있는 시장- 위의 주식에 직접적으로 투자하거나 또는 risk-free interest rate r_f가 있는 risk-free bank cash account에 자산을 그냥 두는것도 가능 ($B_t$ 로 그양을 지정)- 벡터 $x_t \in R^N$ 로 각 주식에 대한 포지션에 대한 dollar 금액으로 표시하고, $X_{it} < 0$ 인경우는 short position을 가지고 있다는 의미- 보유하고 있는 주식의 양은 $X_t$를 $P_t$로 나누고 정수로 반올림하여 확인- step T가 시작됐을때 발생한 거래의 경우 $u_t \in R^N$로 표시- 거래 직후의 portfo.. [Reinforcement Learning in Finance] Intro to RL for Stock Trading Reinforcement Learning for Stock Trading- 주식 포트폴리오의 dynamic optimization을 통한 주식거래- Single stock case: optimal execution- Portfolio problems: optimal investment portfolio, optimal portfolio liquidation, index tracking- one step reward에 cost of trade와 risk penalties를 포함해야한다.- stock position을 state variable로 포함해야한다.- feedback loop 를 market impact로 적용해야한다.- High-dimensional problem, Big Dta problem(.. [Reinforcement Learning in Finance] RL for Stock Trading Topics:- Study applications of Reinforcement Learning for stock trading- Discuss various problems in Quantitative Trading that amount to Reinforcement Learning tasks- Study such problems as optimal portfolio execution, dynamic portfolio management, and index tracking- Develop a simple portfolio model that allows us to address all these problems in the same modeling framework- Explain a RL approa.. [Reinforcement Learning in Finance] MDP & RL: Value Function and Bellman Equation Markov Decision Process Model 의 목표는 expected total reward를 최대화 하는것이다.- 이러한 문제는 바로 해결되야하지만, reward는 미래의 일이기 때문에 어떤 action이 state에서 취해질지 policy를 통해서결정된다. 동일한 MDP 문제에서 어떻게 possible policies를 quantitatively 비교할수 있는가?- 시작되는 state가 다르면 다른 total rewards가 나올수 있다. - 이러한 환경들을 고려한 total cumulative reward 를 value function 이라고 부른다.$V_0^\pi = E[R_0(s0, a0) + \gamma R_1 (s_1, a_1) + ... | s_0] = E[\sum_n \gamm.. 이전 1 2 다음