The Evolution of RL in Quantitative Finance: A Survey
2024年系统综述,167篇论文,聚焦三个前沿方向:多智能体RL、信息不对称环境、非平稳市场中的策略适应性。
**1. 多智能体强化学习(MARL)** — 金融市场天然是多智能体环境。MARL框架采用集中训练分散执行(CTDE),Nash均衡作为策略目标。关键发现:在信息不对称环境下,保守策略长期优于激进策略。
**2. 信息不对称** — 内部人信息vs公开信息,订单簿信息vs延迟信息。RL代理如何从有限信息中推断隐藏状态。
**3. 非平稳环境处理方法对比**:
| 方法 | 处理方式 | 效果 |
|---|---|---|
| 经验回放衰减 | 旧数据权重降低 | 中等 |
| 在线元学习 | 快速适应新分布 | 好 |
| 集成多代理 | 投票/加权 | 好 |
| Regime检测 | 状态切换 | 最好 |
**Regime检测效果最好**——与我们的HMM Regime Switch思路完全一致。
多智能体视角为投资框架提供新思路:MARL模拟"我们vs市场"博弈;Regime检测+状态切换是处理非平稳性的最优方案;信息不对称研究支持"认知差投资"假说。