大模型简单来说就是一个机器学习模型,其参数巨量,数据规模巨大,并且它的计算结构十分复杂,主要通过其理解能力以及表达 能力处理复杂的任务。应用场景十分广泛,早期应用于自然语言、神经网络、语音、系统推荐等,如今几乎涉及各行各业,目前大模型已经成为未来人工智能发展的重要方向和核心技术。
根据企业的应用场景,可以分为下面几类:
1、生成类应用
Codex,以性能闻名,是OpenAI开发的一种语言模型,可以根据问题描述等自然语言提示生成代码,支持多种语言并且可以使用自然语言以及数十亿行代码进行训练,GitHub Copilot 其实就是依赖的 Codex。
CodeT5,基于谷歌T5模型架构的预训练编码器-解码器模型,用于代码理解和生成。它利用了代码中的标识符信息,提出一个新颖的标识符感知的预训练目标,使模型能够区分和恢复被遮盖的标识符。此外,它可以利用代码和注释之间的双模态数据,进行双向生成训练,以此提高自然语言和编程语言之间的对齐。
Amazon CodeWhisperer,一个用于代码生成、参考跟踪、代码安全检测的模型,其经过数十亿行代码的训练,根据评论或者现有代码实时生成从代码片段到全函数的代码建议。这个模型我在工作中经常使用,可以在 VS Code 搜索 Amazon CodeWhisperer 或者AWS Toolkit ,然后 install 就可以使用。
GPT4,这个大家都熟知的一个模型,OpenAI为聊天机器人ChatGPT发布的语言模型,于2023年3月14发布GPT-4。它可以根据输入的文本,快速生成连贯且具有逻辑性的文本,并且不局限于文本处理,可以与其他模态数据(比如图像)进行交互。
2、决策类应用
AI Agent,主要是为了给企业做智能决策支持,通过进行数据驱动处理,构建自动化的业务流程决策,帮助企业快速应对新场景、新任务,提高管理效率和数据处理能力。
Kyligence Copilot,AI数智助理,是大模型技术与数据分析的结合的典范。它的核心价值在于其快速、精确的数据处理能力,以及能够提供高度个性化的业务洞察。这款AI数智助理的设计充分体现了当前数据分析技术的前沿进展,特别是在处理大数据和复杂数据集方面的能力。
3、多模态应用
多模态目前主要指的是文本图像处理。
Stable Diffusion,一个代码、数据、模型完全开源的图像生成模型,基于Latent Diffusion Model(LDM)的文转图AI模型 , 根据提示词的描述以及其他的配置生成高质量、高分辨率的图像,运行时将“成像过程”分离成“扩散过程”,从有“噪音”开始,到最后完全么有噪音,具有较强的稳定性和可控性。并且它还可以修复损坏的图像,如今许多设计师都用它来生成素材。它是通过逐渐增大学习率来实现,适用于在训练过程中存在梯度抖动、训练过程不稳定的情况。
Midjourney,一款基于Discord社区上的AI绘图创作工具,通过巨量的图像数据进行训练,具有强大的绘画能力。它可以理解用户输入的文本信息,在其图像数据中寻找类似的元素特征,生成用户需求的素材。它根据对梯度进行平滑处理实现,适用于模型比较复杂、训练时间较长的情况。
国内的大模型目前大概有188个,此数据来源于:https://github.com/wgwang/LLMs-In-China ,查看所有可点击链接查看所有,这里只展示10个,排名不分先后顺序,能力的其实也都是卧龙凤雏。
大模型的测评有很多,据 SuperCLUE 最新一期(2023.11)中文通用大模型榜单排名显示,目前排在前三位的分别是百度的文心一言、月之暗画的 Moonshot、零一万物的 Yi-34B-Chat。数据来源于:https://www.superclueai.com,目前只排到了前16名。
国外大模型层出不穷,国外的超大规模预训练模型起步于 2018 年,并在 2021 年处于百花绽放阶段。这里列举了国外17个大模型,数据来源于:https://github.com/wgwang/LLMs-In-China ,最出名的莫过于OpenAI 的 ChatGPT,目前最强的版本为GPT-4,具有超强的多模态功能,深受开发者的喜欢
个人认为大模型应用领域将会不断扩大,比如刚开始大模型应用于计算机视觉、自然语言等领域,之后便进军医疗、军事、金融、工业等领域,这些领域的需求也越来越大,通过处理海量数据来完成复杂的任务。技术手段也会不断创新和改进,使用更加高效的算法、逻辑性更强的计算结构等,并且硬件的设备的性能也会大幅度的提升。大模型也会与云计算、边缘计算等技术充分结合,给大模型应用提供给更好的支持和保障,稳定性得到提升。将大模型部署在云端,利用云端服务的优势,高效的处理数据,并且还可降低模型成本。
大模型的发展一定是充满各种挑战,它不仅需要硬件设备支持,还有软件、巨大数据参数以及强大的计算资源,所以不论要投入大量的金钱成本,还需要更多的时间。数据质量和标注也是非常重要的,模型训练需要大量的数据进行标注,标注数据需要大量人工进行干涉,所以人工成本高,并且实现自动标注难度也很大。数据的可靠性,在进行模型训练需要对数据进行严格的测试和验证,因为参数可达百亿、千亿,所以保证大模型的稳定性也是重中之重。
大模型目前应用给人类带来了许多便利,大多数公司已经都拥有自己的模型,并且可以定制化训练达到自己的需求。未来要面临着更多的问题,大模型需要不断突破技术枷锁,提高大模型的性能和可靠性,这样才能够实现低成本、更加高效灵活的应用。