综述arXiv:2112.04553 · 2021

强化学习在金融中的最新进展

Recent Advances in Reinforcement Learning in Finance

Hambly, B., Xu, R., Yang, H.

RL综述组合优化期权对冲做市

与我们的关联

RL+金融全景图，为GA系统提供理论根基

研究概述

本文是强化学习（RL）在金融领域应用的最全面综述，60页篇幅系统梳理了RL在五大金融场景的应用。引用量超过800次。

**1. 最优执行（Optimal Execution）** — 将买卖大单拆分为小单以减少市场冲击。经典Almgren-Chriss模型正被DRL替代，关键指标为实施缺口。

**2. 组合优化（Portfolio Optimization）** — 从Markowitz均值方差 → Black-Litterman → DRL端到端。挑战包括非平稳环境、交易成本、约束条件。代表方法：EIIE、FinRL、DeepTrader。

**3. 期权对冲（Option Hedging）** — 经典Black-Scholes Delta对冲 → DRL动态对冲。DRL在考虑交易成本的非完美市场中表现优于BS。

**4. 做市（Market Making）** — Avellaneda-Stoikov模型 → DRL自适应报价。多智能体做市正在成为研究热点。

**5. 智能投顾（Robo-Advisory）** — 基于用户风险偏好的动态资产配置，RL根据市场状态自动调仓。

方法	类型	适用场景	训练稳定性
DQN	Value-based	离散动作（买/卖/持）	中等
DDPG	Actor-Critic	连续动作（仓位比例）	较差
PPO	Policy Gradient	通用	好
SAC	Off-policy	连续控制	最好
A2C/A3C	On-policy	快速训练	好

**PPO和SAC**是金融场景中最稳定的算法

**模拟环境质量**决定了DRL上限

**奖励函数设计**是核心难题

**在线学习vs离线训练**：大部分论文用离线训练，但金融市场是非平稳的

我们的GA系统本质上是一种"无梯度优化"的组合管理方法。GA优势在于无需神经网络、可解释性强；DRL优势在于在线学习、端到端优化。混合方向：GA搜索策略空间 → DRL微调执行细节。多期组合优化方向——正是我们的Walk-Forward验证在做的事。