2024 AI行业革新大事记

大模型向量数据库云安全

❝ 本文经翻译并二次整理自Top Stories of 2024一文。

2024 年真是精彩纷呈!人工智能领域取得了飞速进展。智能体系统在推理、工具运用和桌面应用控制方面的能力显著提升。小型模型如雨后春笋般涌现,其中许多的性能甚至超越了前辈,且成本更低。尽管有些发展令人 担忧,但更多的是带来了惊喜和希望。如同往年岁末之际,我们诚邀您品一杯热可可,回顾过去 12 个月中的重要突破。

智能体崛起

picture.image

❝ 人工智能界为能够自主行动的系统奠定了基础,通过迭代提示大型语言模型,在各种应用中实现了性能的大幅提升。

发生了什么

智能体” 成为了人工智能领域的新热词。研究人员、工具供应商和模型开发者纷纷为大型语言模型 (LLM) 赋予了决策和行动能力,以实现特定目标。这些进展预示着来年及未来智能体应用将迎来爆发式增长。

幕后推手

多种工具的出现,助力开发者构建智能体工作流程。


        
          
2023  10   
  ├── CrewAI 发布了开源 Python 框架,用于构建和管理多智能体系统  
  
2023 年末  
  ├── 微软推出了智能体开发工具 Autogen,这是一个开源的对话框架,用于协调多个智能体之间的协作  
    
2024  1   
  ├── LangChain 推出了 LangGraph,利用循环图协调智能体行为  
  
2024  9   
  ├── Meta 推出了 Llama Stack,用于构建基于 Llama 模型的智能体应用程序  
  
2024 年末  
  ├── Autogen 团队成员基于原代码库构建了 AG2  
  ├── OpenAI 发布了 o1 模型和计算密集型的 o1 pro 模式,采用智能体循环逐步处理用户指令  
  ├── DeepSeek-R1  Google Gemini 2.0 Flash 的思考模式也采用了类似的智能体推理方式  
  ├── OpenAI 宣布发布 o3  o3-preview,拓展了 o1 的智能体推理能力  
  
2024 贯穿全年  
  ├── 集成开发环境应用了智能体工作流程来生成代码(如 Devin、OpenHands、Replit Agent、Vercel V0、Bolt)  
  ├── LLM 厂商实现工具调用和函数调用,为智能体工作流程提供支持(如 Anthropic  Claude 3.5 Sonnet)  

      

技术解析

更加精细地提示 LLM 的技术在 2022 年开始崭露头角,并在今年年初汇聚成智能体人工智能的发展趋势。这项工作的基本范例包括:

  • 思维链 提示:引导 LLM 逐步思考。
  • 自我一致性:提示模型生成多个响应,并选择与其它响应最一致的那个。
  • ReAct:交错推理和行动步骤以达成目标。
  • 自我优化:使智能体能够反思自身的输出。
  • 反思:使模型能够行动、评估、反思并重复。
  • 测试时计算:增加分配给推理的计算能力。

当前形势

智能体时代已经到来!无论 规模定律 如何继续推动基础模型性能的提升,智能体工作流程都正在使人工智能系统变得更加实用、高效和个性化。

价格大幅下降

❝ 模型制造商和云服务提供商之间的激烈竞争导致了最先进模型的使用价格大幅下降。

picture.image

发生了什么

人工智能服务提供商之间掀起了一场 价格战,以吸引付费客户。一个重要的风向标是:从 2023 年 3 月到 2024 年 11 月,即使性能有所提升、输入上下文窗口扩大、模型也能够处理图像和文本,OpenAI 仍将其模型云访问的每 token 价格降低了近 90%。

幕后推手

导致价格下降的因素包括开源、计算效率更高的模型,以及对在推理过程中消耗更多 token 的智能体工作流程的追捧。OpenAI 的 GPT-4 Turbo 于 2023 年底首次亮相,设定了每百万 token 输入/输出 10.00 美元/30.00 美元的基准价格。之后,顶级的模型制造商纷纷大幅降价:谷歌和 OpenAI 在高端市场竞争,中国公司则专注于低端市场,而亚马逊则在两个市场都有布局。与此同时,一些拥有专用硬件的初创公司以远低于行业巨头的价格提供了开源模型。


        
          
2024  4   
  ├── Meta 发布了 Llama 3 70B,定价为每百万 token 输入/输出 0.78 美元/0.95 美元  
  
2024  5   
  ├── DeepSeek 发布了 DeepSeek V2,定价为每百万 token 输入/输出 0.14 美元/0.28 美元  
  ├── OpenAI 推出了 GPT-4o,定价为每百万 token 输入/输出 5.00 美元/15.00 美元  
  
2024  7   
  ├── Meta 发布了 Llama 3.1 405B,微软 Azure 定价几乎是 GPT-4 Turbo 的一半(5.33 美元/16.00 美元)  
  
2024  8   
  ├── OpenAI  GPT-4o 的价格降至 2.50 美元/10.00 美元  
  ├── GPT-4o mini 发布,定价为每百万 token 输入/输出 0.15 美元/0.60 美元  
  
2024  12   
  ├── 亚马逊发布了 Nova 系列 LLM,Nova Pro 定价为每百万 token 输入/输出 0.80 美元/3.20 美元  
  ├── Nova Lite(0.06 美元/0.24 美元)和 Nova Micro(0.035 美元/0.14 美元)发布  
  ├── 谷歌将 Gemini 1.5 Pro 定价降至每百万 token 输入/输出 1.25 美元/5.00 美元  
  ├── Gemini 1.5 Flash 定价降至每百万 token 输入/输出 0.075 美元/0.30 美元  
  ├── Gemini 2.0 Flash 可免费试用,API 价格尚未公布  
  ├── 初创公司设计专用芯片提升性能并降低开源模型服务的成本(如 SambaNova、DeepInfra 等)  

      

事实是

对计算密集型模型的追求仍在继续,只是面临着新的挑战。9 月,OpenAI 推出 了 token 消耗量较高、价格也相对较高的模型:o1-preview (每百万 token 输入/输出 15.00 美元/60.00 美元) 和 o1-mini (3.00 美元/12.00 美元)。12 月,o1 发布了一个更精确的专业模式,但仅限于每月支付 200 美元的订阅用户。

新闻背后

人工智能界的知名人士纷纷反对那些可能限制开源模型的法规,因为开源模型在降低价格方面起到了重要作用。开发人员的反对意见帮助阻止了加州 SB 1047 法案的通过,该法案要求规模超过一定限制的模型开发者对其模型造成的意外损害承担责任,并要求设置一个“关闭开关”,使开发者能够禁用这些模型。对于任何人都可能修改和部署的开源模型而言,这是一个难以实现的要求。加州州长加文·纽瑟姆于 10 月份否决了该法案。

当前形势

价格下降是健康技术生态系统的体现。需求量大的模型很可能始终保持相对较高的价格,但市场上的定价正逐渐趋向以美分而非美元为单位,每百万 token。

生成式视频爆发

picture.image

❝ 强大的视频生成模型大量涌现,标志着视频生成技术取得了重大突破。

发生了什么

各大公司纷纷推出新的或更新的文本到视频生成器。一些模型还增加了图像到视频和/或视频到视频的功能。虽然大多数模型专注于生成电影片段,但也有一些模型专门用于社交媒体视频。

幕后推手

尽管人工智能领域最近发展迅猛,但在过去一年里,视频生成器还是以惊人的速度走向成熟。几乎所有主要模型都能生成令人信服、高度精细的场景,无论是逼真还是虚幻的,同时还在不断提高图像分辨率、速度、输出长度以及用户控制输出的能力。


        
          
2024  2   
  ├── OpenAI Sora 发布,并私下展示给好莱坞的创作者  
  
2024  5   
  ├── Runway Gen 3 Alpha  Gen 3 Alpha Turbo 发布,生成更高分辨率的视频,并引入 API  
  
2024  10   
  ├── 字节跳动发布 PixelDance  Seaweed,分别生成 10 秒和 30 秒的视频片段  
  
2024  11   
  ├── 未经授权的用户获得了 OpenAI Sora 访问权限  
  
2024  12   
  ├── OpenAI 正式发布 Sora 模型,广泛开放给用户  
  
2025   
  ├── Meta 推出 Movie Gen,包含四个系统,特别擅长生成配乐,将于 2025 年在 Instagram 上推出  
  
2024  贯穿全年  
  ├── Adobe  Firefly Video 模型集成到 Premiere Pro 中,供视频艺术家生成片段、特效等  
  ├── 中国模型开发商调整模型以适应社交媒体需求(如 Kling AI、PixVerse、Jimeng AI)  

      

新闻背后

视频生成技术正在重塑电影产业。2 月,在观看 Sora 的预览后,美国电影制作人泰勒·佩里 暂停 了他计划的制片厂扩建,他认为不出几年,AI 视频可能会使传统制片厂倒闭。《斯蒂芬·科尔伯特晚间秀》的视频图形团队成员 使用 Runway 的技术,为传统的数字视频添加特效,将编辑时间从数小时缩短到数分钟。

当前形势

视频生成技术在 2024 年取得了显著进步,但仍有很大的改进空间。由于大多数模型一次只能生成少量帧,因此难以跟踪物理和几何关系,也难以在一段时间内生成一致的角色和场景。保持帧之间一致性的计算需求意味着生成的片段都很短。即使是短片段也需要大量的时间和资源才能生成:Sora 可能需要 10 到 20 分钟才能 渲染 短至 3 秒的片段。OpenAI 和 Runway 发布了更快的版本 Sora Turbo 和 Gen-3 Alpha Turbo,以应对这一挑战。

小型化趋势

picture.image

❝ 多年来,最好的人工智能模型变得越来越大。但在 2024 年,一些流行的大型语言模型已经足够小,可以在智能手机上运行。

发生了什么

顶级人工智能公司不再将所有资源投入到构建大型模型上,而是推广了一系列包含小型、中型和大型模型的大型语言模型。诸如微软 Phi-3 (包含约 38 亿、70 亿和 140 亿参数的版本)、谷歌 Gemma 2 (20 亿、90 亿和 270 亿参数) 以及 Hugging Face SmolLM (1.35 亿、3.6 亿和 17 亿参数) 等模型系列都专注于小型化。

幕后推手

小型模型之所以变得更加强大,得益于知识蒸馏 (使用大型教师模型训练较小的学生模型以匹配其输出)、参数修剪 (删除影响较小的参数)、量化 (通过使用更少的位表示每个参数来减小神经网络的大小) 等技术,以及对高质量训练数据集的日益重视。除了性能、速度和价格外,在相对低功耗的硬件上运行的能力也是一个重要的竞争优势。


        
          
2019   
  ├── 谷歌推出 T5 系列(包含 5 个模型,参数量从大约 7700 万到 110 亿不等)  
  ├── OpenAI 发布 GPT 系列,成功验证了规模定律,模型参数量从 1.17 亿增长到推测的 1.76 万亿  
  
2023 年初  
  ├── Meta 发布 Llama 2,推出 70 亿、130 亿和 700 亿三种参数规模的模型,并开源了权重  
  
2023  12   
  ├── 谷歌推出 Gemini 系列,其中包括 Gemini Nano(18 亿参数)  
  ├── 微软推出 Phi-2(27 亿参数)  
  
2024  2   
  ├── 谷歌发布小型开源模型 Gemma 1(20 亿和 70 亿参数)  
  
2024  4   
  ├── 微软推出 Phi-3(38 亿、70 亿和 140 亿参数)  
  
2024  8   
  ├── Nvidia 发布 Minitron 模型,采用蒸馏和修剪技术,减少了 Llama 3.1  Mistral NeMo 的参数量并提高了效率  

      

新闻背后

蒸馏、修剪、量化和数据收集都是长期存在的技术。但这些技术以前从未实现如此高的小型化和能力比率,这可能归因于被蒸馏、修剪或量化的更大模型的能力空前强大。

  • 1989 年,Yann LeCun 和贝尔实验室的同事发表了“最优大脑损伤”,该文章表明,选择性地删除权重可以减小模型的大小,并在某些情况下提高其泛化能力。
  • 量化技术可以追溯到 1990 年,当时阿拉巴马大学的 E. Fiesler 及其同事在“光学神经网络的权重离散化范式”中展示了表示神经网络参数的各种方法。随着神经网络的普及和规模的扩大,该技术在 2010 年代再次兴起,并推动了 量化感知训练 和 训练后量化 技术的完善。
  • 2006 年,Rich Caruana 和康奈尔大学的同事发表了“模型压缩”,展示了如何训练单个模型来模拟多个模型的性能。Geoffrey Hinton 和谷歌大脑的同事在 2015 年发表了“提炼神经网络中的知识”,改进了 Caruana 等人的研究,并引入了蒸馏一词来描述一种更通用的模型压缩方法。
  • 目前大多数小型模型都是在经过精心策划和清洗的数据集上训练的。更高质量的数据使以更少的参数获得更高的性能成为可能。这是 以数据为中心的人工智能 的一个例子,即通过提高训练数据的质量来提高模型性能。

当前形势

小型模型极大地扩展了成本、速度和部署方面的选择。随着研究人员不断找到在不牺牲性能的前提下缩小模型的方法,开发者将获得更多构建盈利应用程序、提供及时服务并将计算能力分布到互联网边缘的新途径。

picture.image

收购新思路

❝ 大型人工智能公司找到了在不收购初创公司的情况下获取尖端技术和人才的创新方法。

发生了什么

在 2024 年,一些科技巨头与人工智能初创公司达成了新的合作协议,聘请了高管并获得了技术访问权限,而没有直接收购这些公司。这些协议使巨头能够快速获得顶尖人才和成熟技术,并降低了监管机构可能会阻碍此类行动的风险。而初创公司则失去了领导团队以及对关键技术发展的控制权。作为回报,他们获得了资金(至少在某些情况下是如此),回报了投资者,并得以从构建尖端模型的开支中抽身。

幕后推手

微软、亚马逊和谷歌分别利用其雄厚的财力和云基础设施,与 Inflection AI、Adept AI 和 Covariant 以及 Character.ai 达成了合作协议。(声明:吴恩达是亚马逊董事会成员。)


        
          
2024  3   
  ├── 微软向 Inflection AI 投资 6.5 亿美元,获得其对话式人工智能技术的授权  
  ├── 微软聘请 Inflection AI 联合创始人 Mustafa Suleyman  Karén Simonyan,任命 Suleyman 为新人工智能部门首席执行官  
  
2024  7   
  ├── 亚马逊与 Adept 达成协议,获得其智能体技术授权并聘请 Adept AI 的大部分员工(包括 CEO David Luan)  
  
2024  8   
  ├── 谷歌与 Character.ai 达成协议,聘请联合创始人 Noam Shazeer  Daniel De Freitas 及团队成员  
  ├── 谷歌向 Character.ai 提供未公开资金,用于收购其投资者并继续开发个性化人工智能产品  
  
2024  10   
  ├── 亚马逊与仓库机器人制造商 Covariant 达成协议,获得其机器人模型授权并聘请大部分员工(包括 CEO Peter Chen 和首席科学家 Pieter Abbeel)  
  
2024  12   
  ├── 亚马逊将 Abbeel 和前 Adept CEO Luan 安排在一起,负责开发新智能体和通用人工智能的实验室  

      

新闻背后

科技巨头长期以来一直依赖传统的收购方式来获取新的人才和能力,通常收购初创公司是为了其技术团队(即人才收购)和/或其产品或基础技术,而这些产品或技术都需要耗费大量资金和时间进行开发和市场测试。但传统的收购方式正面临着反垄断监管机构日益严格的审查,他们担心大公司通过收购小公司来减少市场竞争。例如,美国联邦贸易委员会曾试图阻止亚马逊收购 iRobot,最终导致两家公司在 2024 年 1 月 放弃 了这项交易。

当前形势

对于那些面临着在快速发展研究和市场中保持竞争力的科技巨头来说,向初创公司支付一笔总付金额和/或许可费以换取顶尖人才和技术似乎已经成为新的常态。但即使是这种有一定距离的合作安排,也无法让科技巨头和初创公司免受监管机构的调查。微软对 Inflection AI 的投资曾在欧洲受到 短暂审查,目前仍在接受美国监管机构的 评估。即使是微软对 OpenAI 的更传统的 投资,以及亚马逊和谷歌在 Anthropic 中的利益也面临着监管障碍。然而,到目前为止,监管机构尚未得出任何这些协议违反反垄断法的结论。

今天的内容就到这里,如果老铁觉得还行,可以来一波三连,感谢!

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论