RL in Financial Decision Making: A Systematic Review
2025年最新系统综述,覆盖167篇文献,是当前最全面的RL+金融全景图。核心发现揭示了该领域的结构性转变:纯RL方法正在被多模态融合替代。
| 年份 | 纯RL方法 | RL+CNN | RL+Attention | RL+其他 |
|---|---|---|---|---|
| 2020 | 72% | 15% | 8% | 5% |
| 2023 | 48% | 28% | 18% | 6% |
| 2025 | 35% | 25% | 32% | 8% |
混合架构占比从15%提升到42%。原因:CNN提取局部价格模式,Attention捕捉长程依赖,RL做最终决策。
**1. 非平稳性** — 市场数据分布随时间变化。解决方案:在线学习、元学习、领域适应。我们的WF验证本质上就是在处理这个问题。
**2. 稀疏奖励** — 长期投资决策反馈周期长。解决方案:奖励塑形、分层RL。与我们的"季度再平衡"频率设置一致。
**3. 状态表示** — 如何将市场信息编码为RL状态。趋势:从手工特征 → 自动特征学习。我们的32基因编码就是一种手工特征工程。
这篇综述验证了我们的技术路线:GA+贝叶斯+HMM混合架构与"混合架构优于纯方法"的发现一致。Walk-Forward验证直接对应非平稳性挑战。32基因编码虽不如深度学习灵活,但可解释性是核心优势。未来方向:GA搜索到的最优策略作为RL预训练起点。