大模型有多火,自不必多说,但是想发论文完全没头绪?那你一定不要错过这6个,备受顶会青睐的方向!
LLM+合成数据:当下的新兴方向,还不算卷。其缓解了大模型依赖海量数据,而诸多真实数据难获取等问题。各类O1模型,已验证了其有效性。
LLM+奖励模型:当下的迫切需求!大模型生成的毒性内容、幻觉等问题严重影响落地,而奖励模型虽对提升对齐效果作用显著,但目前泛化能力都很弱,难以应对复杂任务。可以关注代理型奖励模型、自我反思奖励模型……
大模型推理:在学术界和工业界都是热门,可发挥空间很大。Scaling Law、在线强化学习等都值得探索。
长文本:目前数据质量、位置编码、工程优化等是重点。
LLM-as-a Judge:用大模型进行打分、排序、筛选等,能参与的环节很多,像是数据合成、增强;模型训练、评估等。
安全对齐:确保大模型与人类的价值观、伦理规范一致,目前还在起步,同时也有政策压力,创新机会多。
为方便大家研究的进行,每个方向,我都给大家准备了创新思路和源码,共85种,一起来看!
扫描下方二维码,回复「85LLM」
免费获取全部论文合集及项目代码
LLM+合成数据
GPT-FL: Generative Pre-trained Model-Assisted Federated Learning
内容:本文提出了一种名为 GPT-FL 的生成式预训练模型辅助的联邦学习框架,旨在通过利用生成式预训练模型生成多样化的合成数据来提升联邦学习的性能。这些合成数据被用于在服务器上集中训练下游模型,然后在标准联邦学习框架下用私有客户端数据进行微调。实验表明,GPT-FL 在模型测试精度、通信效率和客户端采样效率方面均优于现有的联邦学习方法,并且无论目标数据是否在预训练生成模型的领域内,都能显著提升性能。
LLM奖励模型
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
内容:本文提出了一种名为“代理奖励建模”的奖励系统,旨在将人类偏好与可验证的正确性信号相结合,以提高大型语言模型(LLMs)的奖励模型(RMs)的可靠性。作者实现了一个名为REWARDAGENT的奖励代理,通过整合人类偏好奖励和两个可验证信号(事实性和指令遵循性)来提供更可靠的奖励。实验表明,REWARDAGENT在现有的奖励模型基准测试和真实世界的下游任务中均显著优于传统的奖励模型,并且能够有效提升LLMs在各种自然语言处理基准测试中的性能。
LLM推理
VIDEOTREE: Adaptive Tree-based Video Representation for LLMReasoning on Long Videos
内容:本文提出了一种名为 vIDEOTREE的框架,用于在长视频上为大型语言模型(LLM)推理构建自适应的树形视频表示。该框架通过迭代提取与查询相关的视频信息,形成层次化的视频表示,从而提高长视频理解的效率和准确性。具体而言,VIDEOTREE 首先通过视觉聚类、关键帧字幕生成和相关性评分等步骤动态选择与查询相关的关键帧,然后利用层次化结构逐步细化信息,最终将提取的信息输入 LLM 进行推理。实验表明,该方法在多个长视频问答数据集上优于现有的无训练方法,并且在推理效率和准确性上均表现出色。
长文本
OMNIKV: DYNAMIC CONTEXT SELECTION FOR EFFI CIENT LONG-CONTEXT LLMS
内容:本文提出了 OmniKV,这是一种针对长文本场景下的大型语言模型(LLM)推理的高效方法,能够在不损失性能的情况下显著减少 GPU 内存占用并加速解码效率。OmniKV 通过利用层间注意力相似性和动态上下文选择机制,避免了传统方法中基于注意力分数丢弃不重要标记的做法,从而在多步推理场景中保持了关键信息的完整性。实验表明,OmniKV 在多个基准测试中均取得了最佳性能,尤其是在多步推理任务中表现突出,并且能够在单个 A100 GPU 上扩展 Llama-3-8B 的最大上下文长度从 128K 提高到 450K。
扫描下方二维码,回复「85LLM」
免费获取全部论文合集及项目代码
LLM-as-a-Judge
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
内容:本文提出了MLLM-as-a-Judge,这是一个用于评估多模态大型语言模型(MLLM)在视觉-语言任务中作为评判者能力的新基准。研究者们从图像配对、模型响应收集到人类标注对比等多个步骤构建了该基准,并在评分评估、成对比较和批量排序三个任务中测试了 11 种主流 MLLM 的表现。结果显示,尽管 MLLM 在成对比较任务中与人类偏好较为接近,但在评分评估和批量排序任务中存在显著差异,且存在自我偏好、位置偏好、长度偏好等偏差问题。此外,研究还发现多步推理链(CoT)方法并未提升模型作为评判者的性能,而提供详细的图像描述可以显著提升传统 LLM 在多模态任务中的评判表现。
安全对齐
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
内容:文章提出在微调大型语言模型(LLMs)时面临的安全风险,以及如何量化和评估这些风险。包括风险类型,分析在微调过程中可能出现的风险,例如模型生成有害内容、隐私泄露、对抗攻击等和风险量化方法,用于衡量这些风险的具体指标和方法,帮助研究人员和开发者更好地理解和管理风险。
扫描下方二维码,回复「85LLM」
免费获取全部论文合集及项目代码