发布时间:2025年04月29日
如遇无法添加,请注明PaRT
+vx: iamxxn886
- 为什么要提出PaRT框架
大型语言模型(LLMs)的突破性进展,正推动社交聊天机器人向更智能、更拟人的方向飞速发展。然而现有系统大多聚焦于情感化应答,却忽视了主动对话的艺术——那些仅采用被动应答策略的传统机器人,往往让用户陷入单方面推动对话的困境,最终导致互动索然无味。
主动对话技术为此提供了破局之道。这类系统能像人类般主动开启话题(如"您最向往哪个旅游胜地?"),或在察觉用户兴趣减退时巧妙转场。但当前直接调用LLMs生成话题的方式存在明显缺陷:既容易产出千篇一律的泛泛之谈,又受限于模型的知识时效性,难以维持专业领域的深度交流。
为此,创新性地提出PaRT(which enhances P roa ctive social chatbots with personalized real-time R eT rieval)框架,通过个性化实时检索赋能主动对话。如图1所示,该系统包含三大核心模块:
- 首先,用户画像模块通过智能提问构建精准的用户画像;
- 其次,意图分析器能敏锐捕捉对话中的显性需求与潜在兴趣,将原始查询转化为个性化指令;
- 最后,检索增强模块从RedNote(小红书)获取最新资料,经去芜存菁后指导LLMs生成精准回应。
实验证明,该方案不仅能显著提升对话质量,更将平均会话时长提升了21.77%。
- PaRT方案详解
上图展示了PaRT的整体架构。完整工作流包括三大核心模块:用户画像分析、意图驱动的查询优化和检索增强生成。
2.1 用户画像
为提升聊天机器人对用户偏好的理解,引入用户画像模块。
借助记忆机制,系统能提炼对话历史中的关键信息并存入用户画像。
主动问候是构建画像的有效方式——静态问题库支持随机提问开启对话。结合现有画像与检索增强生成技术的个性化问候,能进一步完善用户画像。
2.2 智能意图驱动的查询优化器
对话过程中,优秀的聊天机器人应当主动感知用户需求,在互动降温时巧妙切换话题。
传统聊天机器人常因执着当前话题导致交互质量下滑,而真正提升对话质量的关键在于精准捕捉用户潜在意图。
将用户意图划分为三类:
- 自然延续:自然延续场景下,聊天机器人需在陪伴中保持对话流畅;
- 主动求知:面对主动求知类提问(如"《沙丘2》新片评价如何?"),则需启动实时检索获取最新资讯。
- 隐性探索:当对话中出现兴趣衰减信号或话题转移倾向时,则暗示着隐性探索需求——此时系统需结合对话历史和用户画像,智能生成个性化话题来重燃互动热情。
2.3 检索增强生成
在开放域生活对话等主动式聊天场景中,实时信息的整合能带来显著增益。由于静态知识库存在天然局限且易过时,网络搜索成为检索增强生成(RAG)的核心支撑。
采用经典的三阶段RAG框架:检索→摘要→网络资源生成。具体实现时,通过RedNote(小红书)搜索引擎确保检索质量。
PaRT系统为不同对话场景定制专属提示:
- 问候场景 :随机选取用户画像特征,由LLM提炼核心兴趣作为搜索词;
- 对话场景 :采用智能查询优化器生成搜索词。
两种场景均触发检索后,LLM对Top k结果智能摘要过滤噪声,最终融合上下文生成自然流畅的信息响应。
3 效果评估
3.1 评估方法
基于11,455个高质量样本构建数据集,采用全参数监督微调(SFT)对Qwen2系列模型进行优化。为兼顾效率与成本,对话生成选用Qwen2-72B-Instruct,其余模块则采用Qwen2-7B-Instruct。
训练配置如下:上下文窗口2048,学习率5e-6;单卡批量大小为2,4步梯度累积确保稳定;
全程使用24张NVIDIA A100 80GB显卡,3轮训练耗时约4小时。推理时通过0.9温度系数调节生成结果的创新性与稳定性。
3.2 评估指标
为全面检验PaRT的性能,分别从检索和生成两个维度进行评估。针对传统机器学习方法在主观任务评估上的局限性,采用基于大语言模型(LLM)的评估体系。
在每个任务中随机选取50个样本,通过kappa系数衡量LLM与人工评分的一致性。鉴于检索数据库规模庞大且动态更新,检索性能仅采用Top-k精确率(P@k)指标。通过设计特定提示词,由LLM判断检索结果是否同时满足:内容相关性 、实用价值 和对话流畅性 三项要求,并给出0/1二值判定。
在生成质量评估方面,借鉴的研究框架,针对问候和对话场景设置了三个评价维度:
- 个性化程度:考察回复对用户偏好的适配能力
- 信息密度:衡量内容的知识含量
- 沟通技巧:则评估回复在促进自然对话时表现出的逻辑连贯性、情感共鸣度和互动吸引力
每个维度均要求LLM给出0-3分的量化评分,分值越高代表质量越优。
3.3 离线实验成果
3.3.1 检索效能对比
通过对比原始用户查询与LLM优化查询的检索效果,如上表所示:优化查询使整体检索性能提升31.71%。
优化查询的P@k指标随检索量增加衰减更缓,证明了PaRT方案的稳健性。经权衡信息量与准确率,最终设定检索段落数为5。
3.3.2 文本生成质量
系统对比了两种生成模式:
- 直接调用LLM的常规方案
- 基于用户画像的个性化生成方案
如上表所示,PaRT创新性地融合用户画像与检索笔记,在所有指标上均表现最优:个性化生成回复更符合用户预期,而结合检索信息的PaRT方案能提供更精准的交互体验。
3.3.3 检索量优化研究
针对问候/对话两种场景,测试了k=1/3/5/10四种检索量配置。如上表所示,k=5时系统达到最佳平衡——检索量不足导致信息缺失,过量则引入噪声干扰,再次验证了RAG系统需精准把控检索规模与精度的黄金比例。
3.4 在线实测效果
为量化系统对用户粘性的提升,开展了在线A/B对照实验。选取"平均对话时长 "作为核心指标——该数据能直观体现用户投入程度。
对照组采用被动应答式聊天机器人,实验周期为7天,样本均分至对照组与实验组。
上表数据显示,PaRT方案使平均对话时长显著提升21.77%,验证了其有效激发用户深度交互的能力。
- 论文原文: https://arxiv.org/abs/2504.20624
- 获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- 加入社群,+v: iamxxn886