白驹过隙,日光荏苒,转眼间,2023年已接近尾声。如果说要总结出2023年科技界谁的热度最高? 那么“大模型”必然是其中之一。在这一年里,全球范围内都掀起了一股大模型热潮,我们目睹了大模型的异彩纷呈,它的惊艳亮相,无疑为人工智能的发展添上了浓厚的一笔。最近,我也在探索大模型相关的一些技术,下面做一个简单的总结。
它是大规模语言模型的简称,英文叫Large Language Model,也可以缩写为LLM。具有大量参数和复杂结构的机器学习模型,参数是指模型中用于存储和调整知识和能力的变量,结构是指模型中用于处理和传递信息的组件和连接方式。
1、模型结构:
目前主流的大模型都是Transformer、MOE结构为基础进行构建,如果说Transformer结构使得模型突破到上亿参数量,MoE 稀疏混合专家结构使模型参数量产生进一步突破,达到数万亿规模。
2、大模型算法:
下图详细展示了AI大模型的发展历程:
可以说,Transformer 开创了继 MLP 、CNN和 RNN之后的第四大类模型。而基于Transformer结构的模型又可以分为Encoder-only、Decoder-only、Encoder-Decoder这三类。
- 仅编码器架构(Encoder-only):自编码模型(破坏一个句子,然后让模型去预测或填补),更擅长理解类的任务,例如:文本分类、实体识别、关键信息抽取等。典型代表有:Bert、RoBERTa等。
- 仅解码器架构(Decoder-only):自回归模型(将解码器自己当前步的输出加入下一步的输入,解码器融合所有已经输入的向量来输出下一个向量,所以越往后的输出考虑了更多输入),更擅长生成类的任务,例如:文本生成。典型代表有:GPT系列、LLaMA、OPT、Bloom等。
- 编码器-解码器架构(Encoder-Decoder):序列到序列模型(编码器的输出作为解码器的输入),主要用于基于条件的生成任务,例如:翻译,概要等。典型代表有:T5、BART、GLM等。
截至目前已经开发的工具有两个,分别为:
- 公司内部AI工具盒子
- 文件翻译工具(上传pdf翻译为指定语言)
在开发过程中识别到最多的的问题主要是输出结果不符合预期、结果不可控,接下来就谈谈提示词的标准、提示词该如何写效果更好。
1、提示词的标准和原则
在我看来,一个粗略而简单的标准就是:你身边的人是否能够轻松听懂。如果你写一个提示词,还需要别人再问你好几个问题才能真正明白什么意思,那么这个提示词就不是好的提示词。
好的提示词应该遵循清晰具体,重点突出,充分详尽的原则。在提示词中给出他回答问题所需要的主要信息,并且清楚具体地告诉它要做什么事情。
2、提示词公式
对于相对简单、通用的任务,由于模型对这类任务通常比较擅长,一般遵循前面所讲的原则直接写提示词即可。
示例:
请帮我找出下面段落中的错别字,段落内容为:XXX。
对于相对复杂、专用的任务,可以参考下面的公式:立角色 + 说问题 + 定目标 + 给示例 + 加背景+ 补要求,往往可以得到更好的回答。实际使用过程中并非这四项都要有,可以根据实际情况进行灵活组合。
示例:
我希望你能充当{{language}}翻译、拼写纠正者和改进者。我将用任何语言与你交谈,你将检测语言,翻译它,并在我的文本的更正和改进版本中用{{language}}回答。我希望你用更漂亮、更优雅、更高级的{{language}}单词和句子来取代我的简化 A0 级单词和句子。自行理解用户的合理翻译需求,保持意思不变,但让它们更有文学性。我希望你只回答更正,改进,而不是其他,不要写解释。我的第一句话是{{query}}
总的来说,2023年是大模型快速发展的一年,机遇与挑战并存。
一方面,随着大模型在各个领域的广泛应用,如何保障数据隐私和安全等问题我们也不应忽视。另一方面,目前市场上的 AI 模型众多,包括国外的 ChatGPT、Claude、Bard 等,国内的文心一言、通义千问、讯飞星火大模型等。不同的模型之间能力有差异,但是相同的模型不同人用起来效果也会相差很大,关键在于提示词技巧,虽然现在已经进入 AI 时代,已经可以用自然语言和模型交互,但对提示词的要求还是有点高,在 AI 工具发展的相对早期,很多问题还没有完全解决,很多功能还不完善。
实践出真知,以上是这段时间进行大模型实践的一点点总结,人工智能未来还有很长的一段路要走,所以我们需要不断学习,并保持创新和创造性,后续会持续更新自己研究大模型获得的一些认知和实践经验,希望能够帮助大家,欢迎点赞收藏加关注。
未来在“人工智能+”的时代,比人类更强大的不是人工智能,而是掌握了人工智能的新人类。