以下为2023年2月17日,复旦大学邱锡鹏教授在高瓴人工智能学院做主题为“大型语言模型的能力分析与应用”的报告。点此阅读原文
ChatGPT的成功并不是偶然结果,在目前的版本开放出来以前,OpenAI已经在训练大规模语言模型的道路上深耕多年。ChatGPT的发展路径可以由下图概括:
ChatGPT加速实现通用人工智能
LLM模型性能
随着算力的不断提升,语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型,并逐步走向大模型的时代。当模型规模较小时,模型的性能和参数大致符合比例定律(scaling law),即模型的性能提升和参数增长基本呈线性关系。然而,当GPT-3 / ChatGPT这种千亿级别的大规模模型被提出后,人们发现其可以打破比例定律,实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”(如理解人类指令等等)。
下图是多个NLP任务随着模型规模扩大的性能变化曲线,可以看到,前期性能和模型规模大致呈线性关系,当模型规模大到一定程度时,任务性能有了明显的“飞升”。因此,当前研究通常以百亿/千亿级别参数量作为LLM的分水岭。
ChatGPT的三个关键技术
01 情景学习(In-context learning)
对于一些LLM没有见过的新任务,只需要设计一些任务的语言描述,并给出几个任务实例,作为模型的输入,即可让模型从给定的情景中学习新任务并给出满意的回答结果。这种训练方式能够有效提升模型小样本学习(few-shot learning)的能力。下图是一个情景学习的示例。
可以看到 , 只需要以自然语言的形式描述两个情感分类 任务输入输出的例子,LLM就能够对新输入数据的情感极性进行判断 。
02 思维链(Chain-of-Thought,CoT)
对于一些逻辑较为复杂的问题,直接向大规模语言模型提问可能会得到不准确的回答,但是如果以提示(prompt)的方式在输入中给出有逻辑的解题步骤(即将复杂问题拆解为多个子问题解决再从中抽取答案)的示例后再提出问题,大模型就能给出正确题解。
如图所示,直接让模型进行数学题的计算会得到错误的结果,而引入解题过程则可以激发模型的推理能力,从而得到的正确的结果。
有时,甚至不用给示例,在输入后面接一句“Let’s think step by step”,模型的输出就是一步一步“思考”后的各个子问题的结果,再将该输出拼到输入后构造第二次输入数据,大模型就能进一步将上一步的输出整合,得出正确的复杂问题的解。(so amazing!)
目前有研究发现,由于数据集中存在的大量代码数据,得益于代码的强逻辑性,通过将问题中的文本内容替换为编程语言能够进一步提升模型的CoT能力(Program-aided Reasoning)。
由于CoT技术能够激发大规模语言模型对复杂问题的求解能力,该技术也被认为是打破比例定律的关键。
03 自然指令学习 (Learning from Natural Instructions)
这种训练方式会在输前面添加一个“指令(instruction)”,该指令能够以自然语言的形式描述任务内容,从而使得大模型根据输入来输出任务期望的答案。该方式将下游任务进一步和自然语言形式对齐,能显著提升模型对未知任务的泛化能力。
思考 : 大模型作为智能体需要什么条件?
1、具有自身学习能力
2、跨模态学习
3、知识利用
4、模型可信:有助、无害、诚实
参考文献 :
