大家好,我是老三,正在不断地学习 AI 知识,用 AI 来武装自己。
这是我学习记录的第6篇文章。
前言
有没有小伙伴和我一样,在和大模型连续对话几轮之后,忘记了对话开始我们给它设计的身份以及对它的要求等,仿佛大模型“失忆”了。这就引入了一个概念:Token
Token的定义
在大模型中Token是自然语言处理中的一个基本单位,它通常代表文本中的一个元素。处理文本时,它会将连续的文本分割成许多独立的Token,以便于进一步分析和理解。
Token的具体定义在不同的场景下有不同的定义,但通常有以下几种:
- 词汇Token:Token可以是英文文本中的一个单词,也可以是汉语中一个汉字或者一个词汇
例如,句子 “I am a writer.” 可以被分割成四个Token:“I”、“am”、“a” 和 “writer”
-
字符Token:Token可以是单个字符或点符号。例如逗号、问号等。
-
句子或段落Token:在更高级别的文本分析中,Token可以是整个句子或段落。
Token的作用
大模型通过将我们输入文本分割成单个的Token,每一个Token,无论是一个词、一个字,还是一个标点符号,都成为模型理解语言的关键。
模型会分析各个Token之间的关系,掌握整段文本的语义脉络与情境背景。基于这些分析,模型能够预测并生成新的 Token,以此来构筑连贯的回应或生成文章。
当我们与这些大模型互动时,可以直观地观察到它们的输出方式:不是成段成段的文字,而是逐字逐句地精细生成。这种逐步构建的过程,正是大模型处理语言的核心机制。想要深入了解的小伙伴,可以看一下我之前的文章。
AI | 编程、创作、学习:ChatGPT,你的AI生活教练!
Token的限制
Token数量限制:即大模型一次对话的总体上下文长度是固定的,超过这个限制,大模型就会遗忘之前的内容。
限制的原因:过长的Token序列会导致大模型的计算量过大,计算精度下降,而且会严重影响模型的响应时间和用户体验。
查询大模型的Token数量限制
我一般用的ChatGPT4.0、智谱清言、Kimi chat,我就以这三个为例查询每一个大模型的Token数量限制
- ChatGPT4.0
ChatGPT的上下文的Token数量为32k,也就是32000个Token
- 智谱清言
智谱清言的上下文的Token数量为128k,也就是128000个Token
- Kimi chat
Kimi chat的上下文的Token数量为200万
从上面可以看出,不同的大模型支持的上下文长度是不一样的。
Token限制对Prompt的影响
长度方面:了解了Token数量限制,有利于我们把握一次对话的有效长度。
例如,如果一个模型的Token限制是1000个Tokens,那么我们输入的Prompt提示词和模型的回答加起来不能超过这个数量。
复杂性方面:对于复杂的任务我们不要一股脑的丢给他去处理,我们要把任务拆分出来,一步步的让它去处理。
优化Prompt的技巧
- 如果prompt提示词太长的话,可以考虑将提示词翻译为英文,这样可以节省Token数量。
因为一个汉字并不是简单的一个Token,以后有机会可以细讲。
-
把最重要的信息放在前面,确保它们不会被截断。
-
在表达原意不变的情况下,要精简我们的提示词。
-
如果有多个问题或请求,考虑将它们分开并分批交给大模型处理。
-
比较简单粗暴一点的办法就是重新开一个对话窗口。
今天的分享就到这了,希望我的分享对小伙伴们有所帮助。
内容很干,记得星标,不然可能收不到推送的消息
欢迎关注公众号加我微信,关注公众号免费领取优质文档资料哦!!!
点击上方“老三的 AI 充电站”关注我有更多的干货分享哦
有帮助的小伙伴记得点个“在看”
有一块交流学习的小伙伴可以链接我
下面是我的二维码