综述arXiv:2408.10932 · 2024

强化学习在量化金融中的演化

The Evolution of RL in Quantitative Finance: A Survey

多位作者

RL量化金融多智能体信息不对称

与我们的关联

多智能体视角可模拟市场参与者博弈来优化策略

研究概述

2024年系统综述，167篇论文，聚焦三个前沿方向：多智能体RL、信息不对称环境、非平稳市场中的策略适应性。

**1. 多智能体强化学习（MARL）** — 金融市场天然是多智能体环境。MARL框架采用集中训练分散执行（CTDE），Nash均衡作为策略目标。关键发现：在信息不对称环境下，保守策略长期优于激进策略。

**2. 信息不对称** — 内部人信息vs公开信息，订单簿信息vs延迟信息。RL代理如何从有限信息中推断隐藏状态。

**3. 非平稳环境处理方法对比**：

**Regime检测效果最好**——与我们的HMM Regime Switch思路完全一致。

多智能体视角为投资框架提供新思路：MARL模拟"我们vs市场"博弈；Regime检测+状态切换是处理非平稳性的最优方案；信息不对称研究支持"认知差投资"假说。