这10个专业概念，你确定都理解了吗？ - 文章 - 开发者社区

哈喽大家好！这里是AIZ

今天带来“半个圈内人”系列的第二篇文章。

picture.image

真正进入一个领域，做到全方位的了解只是基础。

如果我们对某个领域中的很多东西都不明所以，便算不上入行，更谈不上专业。

今天我想讲的内容包括：开源、闭源、AI幻觉、大模型越狱（提示词越狱）、过拟合以及欠拟合、泛化、多模态、Embedding、 Transformer。

话不多说了，让我们直接开始吧哈哈：

开源

开源指软件或项目的源代码对公众开放，任何人都可以查看、修改和分发这一代码。其核心在于透明性、协作性和自由度，通常遵循一定的许可证协议，确保了使用者的权益，同时也规定了义务。

来个比喻：就像一家餐厅把招牌菜的完整菜谱公开，允许任何人查看、修改、甚至做成新菜式售卖。

eg：安卓系统（手机操作系统）的代码完全公开，其他手机厂商（华为、小米...）都能用它定制自己的手机操作系统。

picture.image

闭源

闭源，与开源相对，指的是软件或项目的源代码不对公众开放，仅由原作者或持有版权的公司拥有和控制。用户只能通过可执行文件使用软件，无法查看或修改源代码。这种方式保护了开发者的知识产权和技术秘密。

再来个比喻：类似一家餐厅的秘密配方，只有厨师自己知道，顾客只能点菜吃，无法学习或修改配方。

eg：计算机的Windows系统是微软的“私房菜”，用户只能使用，看不到背后的代码。

picture.image

这里给大家简单列举了开源和闭源这两个概念的一些对比：



对比维度

开源

闭源


代码透明度

所有人可查看、修改代码

代码保密，仅由开发者或持有版权的公司拥有和控制


编辑权限

用户可自由编辑修改，如安卓手机厂商定制系统

购买或订阅后的用户仅享有使用权，没有编辑修改的权限


使用成本

代码免费，但可能需要自己部署和维护

需要购买或者订阅


可能的商业模式

依靠“增值服务”盈利（如提供更好的服务及生态等）

可以直接靠卖“许可权”进行盈利

AI幻觉

所谓的AI幻觉，说人话就是就是AI在回答问题时“一本正经地胡说八道”，导致生成的内容看起来很合理，甚至逻辑严密，但其实是错误、虚构的，或者完全脱离上下文语境。

而AI之所以会出现这种“幻觉”，大家大致可以从三个方面来理解：

数据集的污染：在前面【看懂这8个概念，你也是半个AI行业人！】这篇文章中讲解RAG时我提到：目前的大语言模型（LLM）大致都是以互联网上公开的信息作为数据集训练而成的。

但在这海量的信息当中，充斥着各种虚假、主观、争议甚至垃圾的信息，特别是随着这些年AI技术的蓬勃发展，内容创造的门槛几乎为0，更加使得网络信息环境日益变差；再加上目前几乎所有大语言模型都拥有实时联网搜索功能，所以无论是从大模型先前的训练数据集角度，还是从实时的互联网信息角度，都不难理解为什么AI如此“瞎搞”。

私有数据欠缺：还是以【看懂这8个概念，你也是半个AI行业人！】这篇文章中关于RAG的讲解为例，在那里我们提到有一些信息是私有化的，是没有被公开在互联网上的，这也就意味着AI没有这一部分的知识。

但当你在询问它时，它可能会基于已有的知识，根据相关性进行非常主观的答复。

训练过程缺陷：不排除因为目前的模型训练技术及过程操作等原因，导致最终出来的模型成果无法对数据集当中的内容充分理解。

picture.image

大模型越狱（提示词越狱）

大模型（比如ChatGPT、通义千问...）在训练时被“关进监狱”（限制），被要求 不能回答某些敏感或有害的问题 （比如给我来个手搓原子弹的教程、给你推荐一些涩瑟的网站【狗头】）。

但用户可以通过 巧妙设计的提问方式 ，让AI“假装”自己没被“关起来”，从而让它 突破限制，输出原本禁止的内容 。这样的行为便称之为“大模型越狱”，也叫作“提示词越狱”。

picture.image

而大模型为什么会“越狱”，主要归结于两点原因：

AI没有“意识”：本质上它只是统计概率的机器，无法判断提问者的意图；
安全机制有漏洞：比如无法区分真实对话和伪造对话。

过拟合、欠拟合

过拟合 是指在机器学习和人工智能领域中，模型在训练过程中过度学习了训练数据的细节与噪声，以至于它不仅学会了数据中的普遍模式，还记住了训练集中的特定异常或噪音。这导致模型在处理未曾见过的数据时表现不佳，因为它过于依赖训练数据中的内容，而对于新情况，没有随机应变的能力。

举个通俗易懂的例子：过拟合使得模型像一个只会背诵课本中公式和例题的学生，但在真正考试面对新问题时无法灵活应对或正确解答，从而影响了其在实际应用中的有效性。

eg：当我们训练了一个吉卜力风格的Lora模型，这个模型最理想的效果肯定是无论你想要呈现怎样的画面内容，只要搭配上这个Lora，即可让画面转绘成吉卜力风格。

但是，由于你的数据集中只提供了吉卜力风格的猫猫狗狗，而由于训练参数的原因导致模型最终过拟合了，那么当你搭配这个模型想要生成一只吉卜力风格的龙猫时，AI可能会太过于参照数据集的内容，最终给你一只猫...

在理解了什么是过拟合后，那欠拟合也就同样能够理解了。其实就是跟过拟合相反：

欠拟合是指在机器学习和人工智能领域中，模型未能充分学习到训练数据中的基础模式与规律，导致其既不能准确处理和预测训练数据的结果，也无法有效处理新的、未见过的数据。

还是刚才那个例子：欠拟合使得模型像一个没有好好准备考试的学生，连最基础的公式都没记住，所以无论是面对平时练习题（与训练数据集特征类似的处理要求）还是考试（与数据集不同特征的处理要求）时都表现不佳，因为它没有掌握解决问题所需的基本知识和技能。

泛化

泛化是指一个模型在学习了训练数据之后，能够准确地处理和预测未曾见过的新数据的能力。说人话就是：模型对于新问题灵活处理的能力。

这么一看貌似跟上面提到的“过拟合”以及“欠拟合”有点暧昧了（指定有点关系）。

你还真没猜错，确实存在联系：

继续上点小比喻：

一位学习很好的学生（良好的模型泛化能力），他不仅记住了课本中的知识，更理解了其中的原理，所以无论是跟课本中极度相似的练习题，还是考试中的新题，他都能灵活变通，最终正确解答；

另一位“非常刻苦”的学生（过拟合的模型），他对课本中的知识死记硬背，却无法真正理解，所以当他面对跟课本中极度相似的练习题时还可以游刃有余，但一到考试遇到新题目，就束手无策（模型泛化能力低）。

还有一位不爱学习的学生（欠拟合的模型），他只是瞟了几眼课本，连公式都没记住就去做题了，这种情况下，无论是面对跟课本中极度相似的练习题，还是考试中的新题，他都没有办法解答（因为同样无法解决新问题，所以模型泛化能力还是低）。

总结：过拟合以及欠拟合的模型泛化能力都是低的。

多模态

你还别说，这个词听起来还挺高大尚的，但理解起来其实很简单：

像人类一样，AI也能同时处理多种“感官信息” ，比如看图片、听声音、读文字，甚至理解视频、触觉等，然后把这些信息结合起来，做出更聪明的判断，这就是多模态AI。

picture.image

当然多模态AI不是说一定要满足以上列举的所有要求，所谓“多”，就是不止一个，所以只要一个AI应用能够同时满足两个及以上的信息类型处理能力，也可以算是一个多模态AI。

比如Open AI发布的GPT-4o，其支持文本、音频、图像的输入和输出。

Embedding

Embedding 是一种将高维、复杂的数据（如文本、图像或音频）转化为低维空间中的连续向量的技术，目的是捕捉和保留原始数据的语义信息与结构特征。通过这种方式，相似的数据点在嵌入空间中彼此靠近，从而使得模型能够更有效地理解和处理这些数据，提升对输入的理解能力和任务表现。

听起来很复杂，其实可以大致理解为一种可以将各种信息转化为计算机能够理解的数字向量的技术。

很多时候Embedding会和RAG（不知道具体是什么的朋友可以回看一下【看懂这8个概念，你也是半个AI行业人！】这篇文章）出现在一起，让我们沿用讲解RAG时所举的例子来解读两者之间的关系：

当你提出问题，AI会根据你的需求利用RAG技术对你设置好的私有化知识库进行检索。那在这个过程中，RAG技术是如何理解你的需求并在知识库中进行信息匹配的呢？答案正是调用了Embedding进行语义的理解，以及根据相关性进行检索配对。

所以，Embedding技术是RAG 实现过程中不可或缺的一部分。

Transformer

Transformer 是一种先进的深度学习模型架构，它能够同时考虑序列中所有元素之间的关系，而不是逐个处理每个元素。这种能力让Transformer在理解上下文、捕捉长距离依赖方面表现卓越。

简单来说，Transformer不仅能理解一句话中每个单词的意思，还能理解这些单词在整个句子甚至段落中的作用和关系。

说到这里，可能有的朋友会发现，截止目前已发布的三篇“半个圈内人”系列文章中，已经出现了三个自然语言处理相关的概念。

这三个概念分别是：NLP、Embedding、Transformer（有关NLP的讲解，也在【看懂这8个概念，你也是半个AI行业人！】这篇文章），那这三者具体有什么区别？现在为大家罗列出来：



对比维度

NLP

Embedding

Transformer


简单定义

自然语言处理，
是人工智能的一个分支，其中就包含有
Embedding和
Transformer

Embedding 是一种技术，能够将离散的符号数据到低维连续向量空间，捕捉语义或特征

Transformer 是一种深度学习模型架构，用于高效处理序列数据（如文本、图像）


核心作用

让计算机理解、生成和操作人类语言（如翻译、问答、文本生成）

将高维的信息转化为低维的数据向量，便于模型处理和捕捉语义关系

分析捕捉序列中所有元素之间的关系


技术特点

依赖多种技术实现

将信息向量化，向量空间中距离越接近的数据相关性更强（苹果和香蕉都是水果，所以这两者离得相对近一些，但电脑显然跟这两者都没有多大关系，所以距离较远）

捕捉长距离依赖关系（信息之间的关联性）


与
Transformer的关系

Transformer包含在NLP中

Embedding为Transformer提供初始的向量表示（如将数据转化为向量），Transformer在此基础上进行分析

Transformer本身不依赖Embedding，但通常结合Embedding使用（如将词转换为向量后输入给Transformer进行关联性捕捉）

（以上有关Embedding以及Transformer的讲解理解起来可能有些吃力，建议多看多思考）

picture.image

好了，今天的分享到这里结束！

最后，如果你喜欢我的文章，欢迎转发和关注；如果我的文章能给你提供一点价值，那将是我的荣幸，在此感谢每一位读者🙏

AIZ荐读

我的7000字长文自述：人人都需要AI的时代，我们一起成长！

一篇文章给你讲清楚：如何用DeepSeek快速制作各类图表（超详细）

看懂这8个概念，你也是半个AI行业人！

用这15套提示词让即梦3.0出图，不用修改，直接就能用！

用360张图像告诉你，AI双子星——可图2.0 VS 即梦3.0，到底谁的效果更好

picture.image