综述arXiv:2512.10913 · 2025

强化学习在金融决策中的系统综述

RL in Financial Decision Making: A Systematic Review

多位作者

RL综述混合架构多模态2025

与我们的关联

混合架构趋势验证我们的GA+贝叶斯+HMM组合方向

研究概述

2025年最新系统综述，覆盖167篇文献，是当前最全面的RL+金融全景图。核心发现揭示了该领域的结构性转变：纯RL方法正在被多模态融合替代。

年份	纯RL方法	RL+CNN	RL+Attention	RL+其他
2020	72%	15%	8%	5%
2023	48%	28%	18%	6%
2025	35%	25%	32%	8%

混合架构占比从15%提升到42%。原因：CNN提取局部价格模式，Attention捕捉长程依赖，RL做最终决策。

**1. 非平稳性** — 市场数据分布随时间变化。解决方案：在线学习、元学习、领域适应。我们的WF验证本质上就是在处理这个问题。

**2. 稀疏奖励** — 长期投资决策反馈周期长。解决方案：奖励塑形、分层RL。与我们的"季度再平衡"频率设置一致。

**3. 状态表示** — 如何将市场信息编码为RL状态。趋势：从手工特征 → 自动特征学习。我们的32基因编码就是一种手工特征工程。

这篇综述验证了我们的技术路线：GA+贝叶斯+HMM混合架构与"混合架构优于纯方法"的发现一致。Walk-Forward验证直接对应非平稳性挑战。32基因编码虽不如深度学习灵活，但可解释性是核心优势。未来方向：GA搜索到的最优策略作为RL预训练起点。