当前强化学习RL发展的主要驱动力有3点:提高样本效率、提升策略性能与泛化能力、解决更复杂的决策问题。而目前有关RL的创新也基本都是围绕这些展开。
具体思路可分为4大类:核心方法与架构的创新、解决特定问题范式的创新、融合领域知识与模型的新范式、迈向通用智能的探索。基本覆盖了强化学习创新的核心方向,强烈推荐每一位想发论文的同学关注!
同时,为帮助大家快速上手,我根据这4个方向整理了161篇强化学习前沿论文,包含当下很香的“RL + X”类创新,开源代码已附,相信各位看完后会有所收获。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
专注于强化学习的 “算法骨架” 优化,比如网络结构、基础机制改进,不绑定特定问题或领域。
KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty
方法: 论文提出 KalMamba 方法,在强化学习中结合卡尔曼滤波与平滑,将线性高斯状态空间模型嵌入 latent 空间,用 Mamba 学习动力学参数,通过并行关联扫描实现高效推理,滤波信念用于策略学习,平滑信念用于模型训练,在保证性能的同时提升计算效率,尤其适配长序列。
创新点:
- 融合概率与确定性状态空间模型优势,提出KalMamba架构,在潜在空间嵌入线性高斯SSM,用Mamba学习动力学参数。
- 基于并行关联扫描实现时间并行卡尔曼滤波与平滑,滤波信念供策略学习,平滑信念保障模型训练紧变分下界。
- 相比RSSM、VRKN等基线,在保证性能的同时,显著提升计算效率,尤其适配长交互序列。
针对某一类明确问题(比如多目标、组合优化),提出新的强化学习应用模式。
Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection
方法: 论文把深度强化学习和约束多目标进化算法结合,提出算子选择框架。以种群的收敛、多样、可行性为状态,候选算子为动作,种群状态提升为奖励,训练Q网络选最优算子,嵌入CMOEAs后能优化算子选择,提升算法性能且通用性更好。
创新点:
- 用深度强化学习设计算子选择模型,以种群状态为依据、候选算子为动作、种群提升为奖励,解决约束多目标优化的自适应算子选择问题。
- 构建通用框架,可嵌入任意约束多目标进化算法,兼容多种候选算子,无需针对性重新设计。
- 该框架让算法在42个基准问题上性能提升,比9种先进算法通用性强,且对参数不敏感、鲁棒性好。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
将外部领域的专业知识(如物理定律)或专用模型融入强化学习,增强领域适配性。
Reinforcement Learning with Physics-Informed Symbolic Program Priors for Zero-Shot Wireless Indoor Navigation
方法: 论文提出物理信息程序引导强化学习(PiPRL)框架,将物理信息与强化学习结合。通过神经感知模块提取传感器物理特征,用符号程序将电磁波特性等物理先验转化为导航策略或约束,再用强化学习优化低层控制,以此提升无线室内导航的样本效率和零样本泛化能力。
创新点:
- 提出PiPRL框架,用符号程序将物理先验转化为策略或约束,让物理信息直接参与强化学习。
- 设计三层架构,通过神经感知提取物理特征,符号程序输出高层策略,强化学习优化低层控制。
- 提升无线室内导航的样本效率(减少26%训练时间),并实现零样本泛化,适配未见过的场景。
以“突破任务边界、提升泛化能力”为目标,追求更通用的决策或学习能力。
Semantic HELM: A Human-Readable Memory for Reinforcement Learning
方法: 论文提出 SHELM 方法,将强化学习与大模型结合:用 CLIP 大模型把智能体视觉观测转成语义 tokens,再用语言模型存储这些 tokens 作为可读记忆,最后结合 PPO 强化学习让智能体依当前观测和历史记忆决策,提升部分可观测环境下的任务收敛速度与记忆可解释性。
创新点:
- 用CLIP大模型把强化学习智能体的视觉观测转成可读语义tokens,解决传统记忆不可解释问题。
- 用预训练语言模型(如TransformerXL)存语义tokens作记忆,不用额外训练且记忆可查看。
- 结合PPO强化学习,智能体靠当前观测和历史记忆决策,任务表现好,尤其Psychlab任务收敛快很多。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
