RL变强的理由 | 大模型+多智能体+物理信息建模，成就一个又一个高光时刻 - 文章 - 开发者社区

最近观望了强化学习在顶会上的表现，发现RL+大模型组合、动态通信多智能体学习、自监督RL、基于模型的RL+DMs这几个方向比较好出成果（见下文）。

其他的，比如多模态输入的RL任务等也不错，想搞新兴领域+细分的可以试试。不过无论选哪个方向，紧跟你同一方向的高质量文章，分析它们的创新点和实验设计，依然是快速找到突破口的关键。

本文整理了193篇强化学习前沿论文，基本涵盖了当前强化学习的主流研究热点，你想做的方向应该都能找到参考，开源代码也整理了，下面扫码就能无偿获取。

picture.image

扫码添加小享， 回复“ 强化161 ”

免费获取全部论文+开源代码

强化学习+大模型

现在与大模型结合在顶会（NeurIPS/ICLR/ICML）上属于“流量密码”，无论是将RL用于对齐微调（比如RLHF）、agent决策规划，还是用LLM生成奖励函数/环境，都容易产生novelty。

方法： 论文提出 STARLING 方法，借助大语言模型（如 GPT3）自动生成聚焦特定技能的文本游戏作为自监督预训练任务，结合强化学习训练文本型强化学习智能体，提升其在目标文本游戏环境中的性能与泛化能力。

picture.image

创新点：

picture.image

强化学习+GNN（尤其是动态图通信）

多智能体系统本身是长期热点，而GNN是多智能体系统中建模通信和协作图结构的核心技术，引入动态图通信能解决非稳态、通信效率等问题，既符合分布式系统趋势，又适合理论+实验融合。

方法： 论文提出 FGNN-MADRL 方法，将图神经网络（GNN）与多智能体深度强化学习（MADRL）结合，融入联邦学习框架，通过构建车路图提取车辆特征、优化聚合权重，实现车载边缘计算中任务卸载的信息新鲜度（AoI）优化。

picture.image

创新点：

picture.image

扫码添加小享， 回复“ 强化161 ”

免费获取全部论文+开源代码

物理信息强化学习

常与Model-based RL结合，引入扩散模型等生成模型来学习复杂物理系统的动力学，实现高保真、概率性的环境建模。这块实验可验证性比较强，在机器人操控、自动驾驶、流体控制等领域很火。

方法： 论文提出 PiPRL 框架，将物理先验编码为领域特定语言（DSL）的符号程序，以神经符号融合方式引导强化学习，提升无线室内导航任务的样本效率与零 - shot 泛化能力。

picture.image

创新点：

picture.image

强化学习+Transformer

因为要缓解RL样本效率低的根本问题，自监督RL这赛道还是有很多机会的，就比如这个。Transformer在RL中的核心优势就是表征学习，通过自监督预训练提升样本效率和泛化。

方法： 论文提出 MINEDOJO 框架，基于 Minecraft 构建含数千任务的开放环境与互联网级知识库，通过 Transformer 预训练的 MINECLIP 模型提供语言条件化奖励，结合 PPO 与自模仿学习实现强化学习 agent 的多任务学习与泛化。

picture.image

创新点：

picture.image

扫码添加小享， 回复“ 强化161 ”

免费获取全部论文+开源代码

picture.image