WebThinker:赋予推理模型深度研究能力

大模型向量数据库数据库

今天给大家带来一个开源的Deep Research框架WebThinker。这是一个面向复杂问题解决与科研写作的推理智能体,它使推理模型不仅能够“思考”,还能在思考过程中自主执行网络搜索、网页浏览、内容整合与报告撰写,实现从提问到结果的端到端执行。

Github: https://github.com/RUC-NLPIR/WebThinker

先看两个demo:

  • 我想投稿NeurIPS 2025,请告诉我这个会议的详细信息
  • OpenAI有哪些模型?它们有什么区别?

WebThinker系统架构解析

picture.image

WebThinker的系统结构如上图所示,分为两个核心模块:

推理内核 + 搜索机制:

模型能够自主判断当前任务是否需要补充外部知识。当触发搜索时,系统会启动“深度网页探索器”来分析网页内容、点击相关链接并进行深度搜索。在收集到足够的信息后,探索器会将其整合回主推理过程中。

Think-Search-and-Draft:边思考,边搜索,边写作的科研报告生成

在搜索推理内核基础上,添加了报告撰写相关的工具。推理模型可以实时撰写报告,并根据新搜索结果动态修订内容。

系统操作分为两个模式:

  • 问题求解模式(Problem-Solving Mode) :模型聚焦获取最终答案,搜索与推理交织进行。
  • 报告撰写模式(Report Generation Mode) :模型围绕研究主题持续探索、撰写、调整,最终输出完整的报告。

深度网页探索器(Deep Web Explorer)

这一模块是 WebThinker 的核心创新,区别于传统“搜索+摘要”系统,该探索器具备:

  • 多层网页点击能力 :不局限于搜索首页,而是通过链接跳转,深入文档结构,模拟人类的信息钻取行为。
  • 搜索路径控制与决策机制 :根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”,实现类人式自主调节搜索策略。
  • 返回高质摘要 :当信息收集达到需求阈值后,系统压缩为模型可消费的摘要结果用于继续推理。

自主写作机制(Auto Think-Search-and-Draft)

模型在撰写研究报告时拥有以下能力:

  • 章节写作 :根据收集到的知识,系统可独立生成某一节的内容。
  • 内容审查与编辑 :允许用户随时审查当前写作内容;系统可自动重写不准确或结构不佳的部分。
  • 多轮修订能力 :模型会反复搜索、修订,不断优化已有内容,实现内容持续进化。

自我提升训练机制(Self-Improvement)

该训练机制希望模型能够:

  • 回顾过往的推理-搜索路径,识别哪些路径最有效
  • 提炼“成功的推理轨迹”用于进一步学习
  • 针对写作任务优化写作逻辑和节奏

该部分作者目前仍在开发中,可以蹲一波后续的论文。

实验评估

实验采用模型 QwQ-32B 作为基座,并在以下数据集上进行测试:

  • GPQA (博士级自然科学)
  • GAIA (困难信息获取)
  • WebWalkerQA (网页导航问答)
  • HLE (跨学科高难度推理题)
  • Reasoning-v1-20m (开放式推理问题-报告生成)

picture.image

picture.image

评测使用 Qwen2.5-72B-instruct 担任评测模型,问答任务使用 Pass@1 作为正确率评估方式。研究报告从四个维度评分:

  • 报告的 整体全面性
  • 各章节 讨论的深度
  • 事实准确性
  • 逻辑连贯性

picture.image

性能对比

作者在推理任务与开放式写作任务上,对WebThinker进行了评估,结果显示其在多个数据集上优于现有同类系统。

picture.image

总结

作为一个让推理模型 在思考过程中自主调用工具 的新范式,WebThinker展现出了其潜力。未来,仍有不少可以继续探索的方向:

多模态推理能力 :扩展到图像、视频等多模态内容的深度研究,来利用网络中的多模态信息。

工具学习与扩展 :通过自我提升机制,不断优化工具使用策略,以及扩展更多工具。

GUI网页探索 :通过GUI网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
KubeZoo: 轻量级 Kubernetes 多租户方案探索与实践
伴随云原生技术的发展,多个租户共享 Kubernetes 集群资源的业务需求应运而生,社区现有方案各有侧重,但是在海量小租户的场景下仍然存在改进空间。本次分享对现有多租户方案进行了总结和对比,然后提出一种基于协议转换的轻量级 Kubernetes 网关服务:KubeZoo,该方案能够显著降低多租户控制面带来的资源和运维成本,同时提供安全可靠的租户隔离性。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论