← 返回论文列表
综述arXiv:2408.10932 · 2024

强化学习在量化金融中的演化

The Evolution of RL in Quantitative Finance: A Survey

多位作者
RL量化金融多智能体信息不对称
原文 (arXiv:2408.10932)PDF下载
与我们的关联
多智能体视角可模拟市场参与者博弈来优化策略

研究概述

2024年系统综述,167篇论文,聚焦三个前沿方向:多智能体RL、信息不对称环境、非平稳市场中的策略适应性。

三大前沿方向

**1. 多智能体强化学习(MARL)** — 金融市场天然是多智能体环境。MARL框架采用集中训练分散执行(CTDE),Nash均衡作为策略目标。关键发现:在信息不对称环境下,保守策略长期优于激进策略。

**2. 信息不对称** — 内部人信息vs公开信息,订单簿信息vs延迟信息。RL代理如何从有限信息中推断隐藏状态。

**3. 非平稳环境处理方法对比**:

方法处理方式效果
经验回放衰减旧数据权重降低中等
在线元学习快速适应新分布
集成多代理投票/加权
Regime检测状态切换最好

**Regime检测效果最好**——与我们的HMM Regime Switch思路完全一致。

对我们的启示

多智能体视角为投资框架提供新思路:MARL模拟"我们vs市场"博弈;Regime检测+状态切换是处理非平稳性的最优方案;信息不对称研究支持"认知差投资"假说。