看懂这8个概念,你也是半个AI行业人!

大模型向量数据库云安全

picture.image

哈喽大家好!这里是AIZ

这些天突发奇想,想专门做一个文章合集,不定期更新,专门科普一些AI相关的概念/知识,将它们讲细讲透,争取让大家都能够看得懂,理解其中的含义。

所以今天是AI科普系列——“半个圈内人”的第一篇文章,以下内容我将为大家详细且生动地讲解AIGC、AGI、LLM、Agent、NLP、API、token、RAG这8个AI领域常见的概念:

AIGC

AIGC,全称应该叫AI Generated Content,说人话就是生成式人工智能,所以,我们首先要明确一点:AIGC是利用人工智能生成内容的技术总称,其中包含有各种相关技术。

picture.image

既然是生成式人工智能,就牵扯到用人工智能生成什么内容才算是生成式人工智能。

答案很简单:用人工智能生成什么内容都算是生成式人工智能(呃..有点搞笑的表达...就稍微有点)。

比如现在大家最熟悉,也是用得最多的文本类生成式人工智能:DeepSeek、豆包等等等等...这些都是在文本类生成式人工智能技术下诞生的产物。

当然啦,文本类AIGC生成内容的范围包括各种形式,最典型的就是输出自然语言和编程语言。除此之外,还有图像、3D模型、视频、音频类的AIGC技术产物,在这里给大家简单罗列一些各个方面目前主流的模型/平台:

文本类AIGC

国内:DeepSeek(深度求索)、豆包(字节跳动)、通义千问(阿里巴巴)、混元(腾讯)、Kimi(月之暗面)、文心一言(百度)、智谱清言(智谱华章)

国外:ChatGPT(Open AI)、Gemini(Google)、Grok(xAI)、Claude( Anthropic)、Llama( Meta)

图像类AIGC

国内:可图(快手)、即梦(字节跳动)

国外:Midjourney、 Stable Diffusion( Stability AI)、Flux( Black Forest Labs)、 DALL-E系列(Open AI)、 Imagen(Google)

视频类AIGC

国内:可灵(快手)、即梦(字节跳动)、通义万相(阿里巴巴)、海螺(MiniMax)

国外:Sora(Open AI)、Runway、Luma、Pika(Pika Labs)

3D模型类AIGC

国内:混元3D(腾讯)、Rodin( 影眸科技)、Meshy( 格拉飞可斯)

国外:Tripo(VAST)、Genie(Luma)、CSM

音频类AIGC

国内: ‌Mureka(昆仑万维)

国外:Suno

AGI

AGI的中文全称为通用人工智能,如果说AIGC指的是一类技术、归结到最后是蕴含工具属性的,那么AGI则象征着一种最高的智能化程度,其核心含义为——像人类一样自主思考,所以, AIGC相关技术是AGI实现过程中的阶段性成果。

picture.image

或者,更形象的讲,如果以哆啦A梦作为主体来比喻,AIGC就是哆啦A梦的百宝袋,而AGI则象征着哆啦A梦的大脑能够跟人一样具备自主思考的能力。

比如在遇到冲突时会自主思考并判断具体是什么情况、这种情况在律法中如何界定、到底是应该掏出手机拨打110进行报警还是掏出一把AK-47给对方来一顿突突,最后,根据最终的决策从百宝袋中掏出对应的工具(调用工具)进行操作(生成相应内容)。

当然啦,目前我们与真正的AGI之间还是有不小的距离的,网络上那些吹嘘AGI实现的,要么是营销号,要么就是元素周期表第51号元素(建议不知道的可以去查一查)...

LLM

这个其实很好解释,其实就是大家平时接触到的大语言模型,像上面提到的DeepSeek、豆包、通义千问等等都属于LLM。

但是要注意, 像上面提到的SD( Stable Diffusion)、MJ( Midjourney)、Suno...这些就不属于LLM,这些是专注于其它特定领域的跨模态生成式大模型。

原因在于LLM的核心是文本的理解和生成,可以是咨询、写作,甚至是编程。基于这点,我们可以得出以下结论: ‌LLM是文本类AIGC的核心技术支柱(大语言模型是文本类生成式人工智能的核心技术)。

picture.image

Agent

Agent,中文翻译过来意思为“代理”,但行业内称之为“智能体”,所以可以将Agent通俗理解为智能代理助手。

而如果要我详细地解释Agent到底是做什么的,其实我更愿意将它与LLM(大语言模型)放在一起讲,所以当别人询问我关于Agent具体是什么的问题时,我经常会回答类似的话:

你平时会听到或者使用到的豆包、Kimi这些大语言模型,你想让它帮你编写代码,它当然能够为你编写出一段不错的程序,但它并不能帮你执行成最终的成果直接供你使用;你想制作一部图文搭配的讲解视频,大语言模型可以为你生成一份非常不错且详细的视频脚本,但却无法直接将最终的视频成果完全制成后交付于你;你遇到一条很棘手的信息,大语言模型可以为你提供一些回复建议,但它同样无法登陆你的微信甚至邮箱参照你以往的语言风格直接完成回复...而类似这些,就是Agent能够干的事。

总结下来,LLM相当于一个能够为你出谋划策的大脑,而真正落实到实践,还需要Agent这一副“躯体”。

所以,光有脑子、有想法是远远不够的,你还需要动手实践,才能真正有所收获(好家伙,这AI学得,还能悟出人生哲理,有意思...)。

人天性懒惰,避难趋易,技术的发展以提高效率为宗旨,而AI将其带到了前所未有的高度,所以,时刻站在人性的角度窥探AI的发展,你会发现AI最终一定是指向释放人类的天性。

到这里我们已经详细了解了AIGC、AGI、LLM、Agent这四个概念,但相信部分朋友或许还是会有一些疑惑,特别是AGI和Agent这两者很容易混淆。小问题,我已经为大家整理好了思维导图,现奉上:

picture.image

NLP

Natural Language Processing(NLP),中文叫自然语言处理,是一类能让计算机“听得懂人话”并会“说人话”的技术,其核心能力就是理解和生成自然语言。

picture.image

(注意:NLP是一类技术的总称,其中包含了各种各样的自然语言处理相关技术)

API

Application Programming Interface(API),这个就太出名了,我们经常会听到别人说“调用XXX的API”,那就让我来给大家详细讲解一下这个阴魂不散的鬼东西到底是什么,有什么用。

API,翻译过来叫应用程序编程接口, 是不同软件/平台...间预先定义好的通信规则与交互协议, 让它们能互相传递信息、调用功能,而无需了解对方内部的复杂运作。

让我们来做个生活化的比喻:

假设你(客户端)进了一家西餐厅,想要点一份牛排套餐(请求服务),但厨房(后台系统)藏在后厨,是封闭的,你无法直接沟通,更无法自己动手制作,这个时候,服务员(API)所起到的联结作用就体现出来了。

  1. 你告诉服务员你想要一份牛排套餐(通过API发送服务请求);

  2. 服务员将需求转达给厨房(传递请求至后台系统);

  3. 厨房经过烹饪备好了菜品(后台系统处理请求);

  4. 服务员端上牛排套餐(后台系统通过API返回结果)。

也就是说,当我们需要时,我们不必自己探究并从0搭建起一个与已有软件相同的产品,只需要调用这个已有软件的API接口,就可以在其他地方运行该软件的内部功能。比如:

当你在淘宝精心挑选出一件心仪的衣服时,点选微信支付,淘宝平台即可通过调用微信支付的API与微信服务器进行通信并完成支付。在这一整套流程中,淘宝平台不需要了解微信的支付技术内部到底是如何运行的,也不需要耗费大量的成本打造一套自己的存储和支付系统。

根据上面的描述,大家也就能理解为什么在今年2月份DeepSeek爆火后,陆续不断地会听到哪个平台又接入满血的DeepSeek了,其实就是API这个“接线员”的功劳。

token

我们也经常会听到“一次对话要消耗多少多少的token”这样的说法,或者还有一部分朋友平时会自己调用一些大模型的API接口,然后会发现需要通过计算token的数量来计费。

picture.image

那,token到底是什么意思呢?

token是自然语言处理(NLP)中的基本语义单元,代表文本被拆分后的最小可处理单位。

上面这段介绍看起来可能会比较专业,其实我们可以简单将其理解为数字世界运行的计量单位。

即大模型进行自然语言处理(无论是输入的信息还是输出的内容)时,利用分词器对信息进行“分割理解”,而对信息分割出来的最小单位,就是token。

至于token为什么是用来消耗的,为什么调用大模型API使用时要通过运行消耗的token数量进行计费,原因就在于现在常说的、也是AI领域最热议的话题之一——算力成本,而token,就是衡量AI运行时消耗的算力成本的主要指标之一。

RAG

如果你现在是一名高中生,刚好最近学校要组织期中考,又恰好现在有一种技术,让你考试遇到难题时在脑海里能够快速检索对应科目课本中的所有内容、老师讲过的所有知识点、曾经做过的所有题目...实现作弊的效果,让你每场考试都跟开卷(其实是开挂)一样,这种技术,现在中,那当然是不存在的(狗头)...

但是在数据处理中,就存在这样一种技术,叫RAG。

【真诚的免责声明:开个玩笑,大家好好考试(狗头)】

Retrieval-Augmented Generation(RAG),翻译过来是——检索增强生成,顾名思义,检索给定的知识库,根据相关性运用内部的知识生成相应内容。

我们将其与上面提到的LLM和Agent用一小段故事串起来:

随着AI的爆发,现在的网络信息环境越来越差,充斥着各种虚假和垃圾信息,但目前的大语言模型(LLM)又是以互联网上公开的内容作为数据集训练而成的。

但你作为一个医学领域的专家,你手中掌握着一些未被公开至互联网上的私有化信息,其中包括你个人医学生涯的一些经验、你与你的病人的一些详细经历、你个人的医学研究成果,甚至是关于你的详细介绍。

你将这些私有信息封装成一个私有化知识库。接着,你利用现有的大语言模型DeepSeek和这个私有化知识库,搭建了一个完全具备你个人特色的Agent(智能体)。这个Agent便能够根据你的需求结合你的私有化知识库输出最符合你个人特征的答复。

假设作为医学专家你的,名叫XXX,你直接问DeepSeek“XXX在医学领域有什么研究成果,他个人详细的经历是怎么样的”。

然后DeepSeek结合自己训练时的数据集(互联网公开的信息),再打开实时联网搜索功能后知道了你是某某医院的某某职位,但是关于经历和研究成果,因为从未公开在互联网上,所以DeepSeek压根不清楚,所以即便答得上来,那也是瞎编。

picture.image

但现在,你搭建好了自己的Agent,你问它:XXX 在医学领域有什么研究成果,他个人详细的经历是怎么样的。这个Agent就会将这个问题抛给你提前内置好的LLM(DeepSeek),LLM经过对问题的分析,理解出你想要了解自己的个人经历和在医学领域的研究成果,接着根据这个需求,利用RAG技术对你设置好的私有化知识库进行检索,发现里面的部分内容与你的需求完全符合,最后提取出这些信息,总结生成最后的回复,输出呈现在你面前。

(这故事这例子讲的, 包能看懂的,我真是个天才哈哈哈哈)

好了,今天的分享到这里结束!

最后,如果你喜欢我的文章,欢迎转发和关注;如果我的文章能给你提供一点价值,那将是我的荣幸,在此感谢每一位读者🙏

AIZ荐读

我的7000字长文自述:人人都需要AI的时代,我们一起成长!

一篇文章给你讲清楚:如何用DeepSeek快速制作各类图表(超详细)

用这15套提示词让即梦3.0出图,不用修改,直接就能用!

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论