PLZ,别再误解大模型联网搜索了

大模型向量数据库机器学习

picture.image

你以为大模型联网是自带技能?其实都是"外挂装备"。

在平时工作开发的过程中,很多PM都会问一句,这个模型具备联网功能嘛?我们这个需求想扒拉扒拉,一个🙄白眼过去

这里有个非常大的误解。

关于联网搜索的误解

大模型本身不具备联网搜索的能力,联网搜索是一种额外添加的策略。

picture.image

这一点常常被误解,很多人以为大模型像我们人类一样,可以直接上网浏览各种信息

其实并不是这样

就好比一个在封闭环境里长大的学霸,虽然知识渊博,但没有“工具”去接触外面的网络世界。

比如像 DeepSeek 这样的大模型,它自己是没办法直接上网搜东西的,它需要借助其他工具来实现联网搜索。

为什么对联网搜索能力如此看重

就像之前 DeepSeek 出现问题不可用的时候,硅基流动等平台推出了 DeepSeek-R1 满血版

可大家还是觉得不够用,为啥呢?

因为没有联网搜索能力呀

picture.image

大家在使用大模型时,常常需要最新的信息,而大模型本身的知识是基于之前的训练数据,很多时候是 “过时” 的。

比如你问大模型 “今天的天气怎么样”,“今天最炸裂的 AI 新闻有哪些”

没有联网搜索能力的话,它就只能根据训练数据里的内容回答,很难给出当下最新的信息。

因为他们是离线的学霸,学习到的知识是有截止日期的。

而后来秘塔搜索、腾讯元宝、知乎直答等推出了联网能力后,就特别受欢迎。

联网搜索怎么做的

比如 deepseek、kimi、腾讯元宝都是有联网功能的,不是模型本身的能力,那是怎么做的

picture.image

DeepSeek

picture.image

kimi

picture.image

腾讯元宝

简单来说,就是利用了搜索引擎的 API。

以 Bing Search API 为例

  • 让大模型先将用户的问题转化为适合搜索引擎理解的关键词
  • 然后Bing Search API搜索引擎根据这些关键词去搜索网络上的相关内容,
  • 再把搜索到的结果返回给大模型
  • 大模型再对这些结果进行分析、整合,最后生成回答。

这就像是大模型有了一个“小助手”,这个“小助手”帮它去网上找资料,它再把这些资料整理成用户想要的答案。

实现的 demo 大致是这样的

picture.image

代码示例


        
        
            

          import requests
          
   

 
          
   

 
          
 # 替换为你自己的API密钥
 
          
   

 
          api\_key = 
          
 "YOUR\_API\_KEY"
 
          
   

 
          url = 
          
 "https://serpapi.com/search.json"
 
          
   

 
          
   

 
          
 # 设置搜索参数
 
          
   

 
          params = {
          
   

 
              
          
 "q"
 
          : 
          
 "人工智能最新进展"
 
          ,
          
   

 
              
          
 "api\_key"
 
          : api\_key
          
   

 
          }
          
   

 
          
   

 
          
 # 发送请求
 
          
   

 
          response = requests.get(url, params=params)
          
   

 
          data = response.json()
          
   

 
          
   

 
          
 # 打印搜索结果
 
          
   

 
          
 print
 
          (data)
          
   

 
        
      

搜索引擎 API 可用列举,可收藏

API名称提供商主要功能适用场景特点与优势数据来源
Bing Search API
微软
支持网页、图像、视频、新闻等搜索,提供安全过滤和基于地理位置的结果
企业级搜索集成、多模态内容检索
无广告、高稳定性,支持流式输出;免费用户每月1000次调用额度
必应搜索引擎数据
Google Search API
Google
自定义搜索范围(特定网站或全网),支持网页、图片、新闻等类型
依赖Google搜索的精准检索需求
免费配额有限,需付费扩展;需自行配置搜索范围
Google索引数据
DuckDuckGo Search API
DuckDuckGo
匿名搜索,无用户追踪,支持文本、图片、视频、新闻等结果
隐私敏感型应用(如匿名工具、安全产品)
完全免费,无地域限制;响应速度快,结果去广告化
DuckDuckGo聚合数据
Serper API
Serper(第三方服务)
封装Google搜索功能,支持网页、图片、新闻等多种类型
快速集成Google搜索,绕过复杂配置
免费额度2500次/月(无需绑卡),支持实时查询;价格低于官方API
Google实时搜索结果
博查Web Search API
博查AI
全网网页、视频、图片搜索,结果符合国内安全规范
国内企业合规场景(如政采贷客户筛选、舆情监控)
价格约为Bing API的1/3;支持抖音、头条等内容搜索,数据不出海
国内主流平台(如抖音、头条)及全网数据
天工Sky-Saas-Search
天工大模型
网页抓取+AI内容提取与生成,支持基础/增强/研究模式
AI应用增强检索(如自动生成摘要、解决大模型幻觉)
结合大模型推理能力,价格0.18-0.28元/次
天工自建索引与实时网络爬取
智谱Web-Search-Pro
智谱AI
专业版联网搜索,支持意图识别和流式输出
与大型语言模型(如GPT)集成,提升信息时效性
限时免费,支持搜索Agent API简化开发
智谱自研爬虫与多源聚合
MeiliSearch
开源社区
自建本地搜索引擎,支持全文检索和高性能索引
私有数据搜索(如企业内部文档库、电商平台商品库)
开源免费,部署灵活;支持多语言分词和同义词扩展
用户自有数据
另一种联网搜索

通常联网搜索是通过关键词调用搜索 API 的形式,不过还有一种指定网页链接的方式。

picture.image

就像 Cursor 的 @link 功能,或者直接把链接扔给 kimi 进行总结,还有豆包,chatgpt 等,它就能帮你从指定链接中获取你需要的内容

而不是像常规搜索那样,从大量网页中去筛选出相关信息。这种方式更加精准,能让用户直接获取到指定网页的知识,避免了搜索结果的繁杂和不精准。

picture.image

最后

无论是通过搜索引擎API实现的广泛联网搜索,还是直接利用指定链接提取信息的方式,联网搜索能力都极大地拓展了大模型的应用边界。

它不仅让模型能够实时获取最新信息,还为用户提供了更精准、更个性化的服务。

就像为知识渊博的“学霸”配备了一副通往外界的“望远镜”,不仅能回忆过去,还能洞察现在,甚至预测未来。

但是不要误解大模型本身具备联网搜索的能力,那一步的 AGI 还很遥远。

END

希望能够帮你或者身边人理清大模型联网搜索的疑惑。

我是大林,持续关注 AI 发展,和大家一起交流。微信(dalinvip2023),备注【公众号 AIGC】,进 AIGC 交流群一起交流。

主页:https://www.dalinaip.com/about

picture.image

如果文章对你有一点点 🤏🏻 帮助, 关注公众号并【星标】 ,可以及时收到最新 AI 信息, 点赞、在看、转发给更多的朋友,后面我继续分享更多的 AI 内容。

往期推荐

刚刚,发现微信已经接入了 DeepSeek-R1 模型,目前处于灰度测试阶段

DeepSeek这个大好人,官方公布的他们的系统提示词,让全网都能体验最佳效果

再推荐一个 DeepSeek R1 满血版平替,具备联网和知识库功能

图解 DeepSeek R1 从 0 到 1 的过程,浅显易懂,值得收藏

全网的DeepSeek 满血版平替,我也只推荐两个

OpenAI 12 天发布会值得关注的信息

AI虚拟试衣为什么还没有大规模落地?

prompt 提示词工程免费的学习课程都在这了

从 0 到 1 的Prompt 教程,来自Claude 官方,不会写 prompt的看这个足够

15 种高级 RAG 技术,值得收藏!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论