今天给大家带来一个开源的Deep Research框架WebThinker。这是一个面向复杂问题解决与科研写作的推理智能体,它使推理模型不仅能够“思考”,还能在思考过程中自主执行网络搜索、网页浏览、内容整合与报告撰写,实现从提问到结果的端到端执行。
Github: https://github.com/RUC-NLPIR/WebThinker
先看两个demo:
- 我想投稿NeurIPS 2025,请告诉我这个会议的详细信息
- OpenAI有哪些模型?它们有什么区别?
WebThinker系统架构解析
WebThinker的系统结构如上图所示,分为两个核心模块:
推理内核 + 搜索机制:
模型能够自主判断当前任务是否需要补充外部知识。当触发搜索时,系统会启动“深度网页探索器”来分析网页内容、点击相关链接并进行深度搜索。在收集到足够的信息后,探索器会将其整合回主推理过程中。
Think-Search-and-Draft:边思考,边搜索,边写作的科研报告生成
在搜索推理内核基础上,添加了报告撰写相关的工具。推理模型可以实时撰写报告,并根据新搜索结果动态修订内容。
系统操作分为两个模式:
- 问题求解模式(Problem-Solving Mode) :模型聚焦获取最终答案,搜索与推理交织进行。
- 报告撰写模式(Report Generation Mode) :模型围绕研究主题持续探索、撰写、调整,最终输出完整的报告。
深度网页探索器(Deep Web Explorer)
这一模块是 WebThinker 的核心创新,区别于传统“搜索+摘要”系统,该探索器具备:
- 多层网页点击能力 :不局限于搜索首页,而是通过链接跳转,深入文档结构,模拟人类的信息钻取行为。
- 搜索路径控制与决策机制 :根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”,实现类人式自主调节搜索策略。
- 返回高质摘要 :当信息收集达到需求阈值后,系统压缩为模型可消费的摘要结果用于继续推理。
自主写作机制(Auto Think-Search-and-Draft)
模型在撰写研究报告时拥有以下能力:
- 章节写作 :根据收集到的知识,系统可独立生成某一节的内容。
- 内容审查与编辑 :允许用户随时审查当前写作内容;系统可自动重写不准确或结构不佳的部分。
- 多轮修订能力 :模型会反复搜索、修订,不断优化已有内容,实现内容持续进化。
自我提升训练机制(Self-Improvement)
该训练机制希望模型能够:
- 回顾过往的推理-搜索路径,识别哪些路径最有效
- 提炼“成功的推理轨迹”用于进一步学习
- 针对写作任务优化写作逻辑和节奏
该部分作者目前仍在开发中,可以蹲一波后续的论文。
实验评估
实验采用模型 QwQ-32B 作为基座,并在以下数据集上进行测试:
- GPQA (博士级自然科学)
- GAIA (困难信息获取)
- WebWalkerQA (网页导航问答)
- HLE (跨学科高难度推理题)
- Reasoning-v1-20m (开放式推理问题-报告生成)
评测使用 Qwen2.5-72B-instruct 担任评测模型,问答任务使用 Pass@1 作为正确率评估方式。研究报告从四个维度评分:
- 报告的 整体全面性
- 各章节 讨论的深度
- 事实准确性
- 逻辑连贯性
性能对比
作者在推理任务与开放式写作任务上,对WebThinker进行了评估,结果显示其在多个数据集上优于现有同类系统。
总结
作为一个让推理模型 在思考过程中自主调用工具 的新范式,WebThinker展现出了其潜力。未来,仍有不少可以继续探索的方向:
多模态推理能力 :扩展到图像、视频等多模态内容的深度研究,来利用网络中的多模态信息。
工具学习与扩展 :通过自我提升机制,不断优化工具使用策略,以及扩展更多工具。
GUI网页探索 :通过GUI网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务。