最近观望了强化学习在顶会上的表现,发现RL+大模型组合、动态通信多智能体学习、自监督RL、基于模型的RL+DMs这几个方向比较好出成果(见下文)。
其他的,比如多模态输入的RL任务等也不错,想搞新兴领域+细分的可以试试。不过无论选哪个方向,紧跟你同一方向的高质量文章,分析它们的创新点和实验设计,依然是快速找到突破口的关键。
本文整理了193篇强化学习前沿论文,基本涵盖了当前强化学习的主流研究热点,你想做的方向应该都能找到参考,开源代码也整理了,下面扫码就能无偿获取。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
现在与大模型结合在顶会(NeurIPS/ICLR/ICML)上属于“流量密码”,无论是将RL用于对齐微调(比如RLHF)、agent决策规划,还是用LLM生成奖励函数/环境,都容易产生novelty。
STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models
方法: 论文提出 STARLING 方法,借助大语言模型(如 GPT3)自动生成聚焦特定技能的文本游戏作为自监督预训练任务,结合强化学习训练文本型强化学习智能体,提升其在目标文本游戏环境中的性能与泛化能力。
创新点:
- 借助GPT3与Inform7引擎,自动生成含特定技能训练的文本游戏,无需大量人工标注,快速构建多样化训练数据集。
- 提出STARLING自监督环境,以生成游戏为辅助任务预训练TBRL代理,助力技能迁移,提升目标环境泛化能力。
- 采用模块化生成流程,结合槽填充与k-shot示例,规范LLM输出并转化为游戏代码,保障游戏可用性与灵活性。
多智能体系统本身是长期热点,而GNN是多智能体系统中建模通信和协作图结构的核心技术,引入动态图通信能解决非稳态、通信效率等问题,既符合分布式系统趋势,又适合理论+实验融合。
Optimizing Age of Information in Vehicular Edge Computing with Federated Graph Neural Network Multi-Agent Reinforcement Learning
方法: 论文提出 FGNN-MADRL 方法,将图神经网络(GNN)与多智能体深度强化学习(MADRL)结合,融入联邦学习框架,通过构建车路图提取车辆特征、优化聚合权重,实现车载边缘计算中任务卸载的信息新鲜度(AoI)优化。
创新点:
- 首次将道路场景构建为车路图数据结构,以路段为GNN节点、车车通信关系为边,有效适配车辆数量动态变化的场景。
- 提出融合分布式本地聚合与集中式全局聚合的GNN联邦学习框架,通过GNN提取车辆特征生成个性化聚合权重,兼顾模型个性化与稳定性。
- 设计新型 MADRL 算法,车辆依自身观测独立决策,结合 SAC 算法提升动态场景适应性。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
常与Model-based RL结合,引入扩散模型等生成模型来学习复杂物理系统的动力学,实现高保真、概率性的环境建模。这块实验可验证性比较强,在机器人操控、自动驾驶、流体控制等领域很火。
Reinforcement Learning with Physics-Informed Symbolic Program Priors for Zero-Shot Wireless Indoor Navigation
方法: 论文提出 PiPRL 框架,将物理先验编码为领域特定语言(DSL)的符号程序,以神经符号融合方式引导强化学习,提升无线室内导航任务的样本效率与零 - shot 泛化能力。
创新点:
- 用领域特定语言(DSL)将物理先验编码为符号程序,作为归纳偏置注入强化学习,兼具可读性与可解释性。
- 提出PiPRL神经符号融合框架,通过感知模块、符号程序模块与RL控制模块的分层协作,衔接物理先验与实际控制。
- 设计程序引导RL机制,通过动作限制、奖励校正等方式,让RL在物理约束下搜索最优策略,提升样本效率与泛化性。
因为要缓解RL样本效率低的根本问题,自监督RL这赛道还是有很多机会的,就比如这个。Transformer在RL中的核心优势就是表征学习,通过自监督预训练提升样本效率和泛化。
MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
方法: 论文提出 MINEDOJO 框架,基于 Minecraft 构建含数千任务的开放环境与互联网级知识库,通过 Transformer 预训练的 MINECLIP 模型提供语言条件化奖励,结合 PPO 与自模仿学习实现强化学习 agent 的多任务学习与泛化。
创新点:
- 构建基于Minecraft的MINEDOJO框架,包含数千个自然语言描述的开放任务,覆盖生存、建造等多类型,支持通用agent训练。
- 打造互联网规模多模态知识库,整合百万级YouTube视频、Wiki页面等,为agent提供海量任务相关先验知识。
- 提出MINECLIP模型,基于Transformer进行视频-文本对比预训练,生成语言条件化奖励,结合PPO与自模仿学习提升RL训练效率。
扫码添加小享, 回复“ 强化161 ”
免费获取全部论文+开源代码
