风起云涌的2023年，异彩纷呈的AI世界 | 社区征文 - 文章 - 开发者社区

概述

2023 年，无疑是大模型狂飙的一年，它创造了无数的新机会和新风口，打响了迈向人工智能时代的冲锋号，但是提起大模型，很多朋友是有局限性，我们首先映入脑海的会是 GPT、文心一言、通义千问等文本类应用，又或者 Midjourney、Runway、Stable Diffusion 等视觉类应用，大模型的世界远远不止这些，AI 的世界也不止大模型，还有更多伟大的创造和应用。在这一年中，我参与了很多，也观看很多 AI 大会的直播，其中有些我深入体验过，有些我深入的探究过。

2023 年，是风起云涌的一年，在这 2023 年的尾声，我总结了 2023 年 AI 界最具影响力的几大趋势分享给大家。趋势是对时局的洞察，从趋势中看未来，或许你也有机会成为下一个风口的引领者。

具体趋势(简略版):

智能体热潮——智能助理，会是下一个风口吗
分割模型大一统: 绝世神功 SAM 模型
具身智能: 关键技术大突破
脑机接口: 结合大模型，解码速度质飞跃
3D 生成: 迈入涌现期，距离商用更进一步
AI 生成: 绘图|视频的飞跃
模型、数据、算力: 全方位同步发展

智能体热潮——智能助理，会是下一个风口吗

什么叫智能体，通俗来讲就是应用中的小助手，例如小度小度、天猫精灵之类，我相信很多人对此都有过体验，感受吗，那就是有点笨、有点憨。

大模型突破了过去深度学习的框架，构建了一套从思维链到思维算法的推理技术和强大的自然语言理解能力，可以让智能体拥有更强大的学习和迁移能力，从而可以创建更具智能性、更实用的智能体，开创了人机交互的新范式。

在大模型的风潮下，今年也产生了很多新兴的优秀智能体。例如游戏领域小助手英伟达 Voyager 智能体、协助人们完成日常任务的 AI 助理 HyperWrite，以及专注于提供个人情感陪伴的 Pi 助手等。

大模型是如何影响智能体的那？智能体的发展其实已经有一个很悠长的过程，从符号智能体到交互式，再到使用强化学习，借助迁移学习和元学习能力等，发展趋势始终没有改变过，那就是智能，具备自主智能，也就是所谓的 AI Agent。下面附上腾讯研究院对此的解读，大家可以更深入的体悟一下 AI Agent。

AI Agent 是指能够独立思考、自主行动并可以与环境交互的软件程序或机器人等实体。Agent 包含三步：PPA，即感知 (Perception)--规划(Planning)---行动(Action)。人工智能之父、图灵奖得主马文·明斯基（Marvin Minsky）在 1986 年出版了一本里程碑式的著作《思维的社会》（The Society of Mind），试图解读人类思维这个复杂的过程。Minsky 认为社会中的某些个体经过协商之后可求得问题的解，这些个体就是 Agent，而 Agent 应具有社会交互性和智能性。 —— 腾讯研究院

大语言模型带来了更强大的自然语言理解能力、能够自主理解、拆解复杂、抽象的人物，具备自我反思，从而可以无限接近问题的最优答案，同时还是一个不断成长的过程，持续进化，因此原有的 AI-Agent 就衍化为当下的 LLM-based Agent(基于大模型的智能体)架构。

LLM 并非就是大模型，而是大模型推理能力的一种展现，LLM-based-Agent 的架构原理还是挺复杂的，如果大家有兴趣，可以去看一下对应论文，这里就大致讲一下核心内容。

LLM 的核心其实是将困难任务逐步分解为更小更简单的任务，同时考虑他们的相互关系和单独解决的难易程度。然后以连续和不间断的方式来进行每一次推理，为子问题提出一些连贯性的解决方案，随着推理的增加，就会构建为一个树状结构，然后评估树上每种解决方案和子问题的可行性，搜索过程一般就是使用 BFS 或者 DFS，可行性由分类器或多数投票来进行评估，最后根据上下文的示例，选出最符合要求的回溯路径。大致就是下面这样的思路。当然这一切的源头还是要依赖于大模型带来的强大自然语言推理能力。

picture.image

随着 AI Agent 的不断发展，每个大公司都会推出相应的智能体，智能体的应用也会各有倾向，但世界的核心要义是联系，我们不能孤立的看待事物。智能体也一样，未来更多的我想应该是考虑如何实现更高效的多智能体协同技术，通过相互之间的交互和合作，构建起完善的智能体系统，实现更高效、更智能的决策和行动。

分割模型大一统: SAM 模型

什么是分割那？

在计算机视觉领域，图像分割可以将图像中的每个像素分配到不同的类别或者对象上，形成来看就是把一张图像分割成各类有意义区域，这种技术通常被用于图像识别、场景理解、医学图像处理等多个应用场景，具有广泛的实际应用价值。

图像分割非常强大，但是过去存在的问题也很明显，它的专有性太强，通常只能针对一个领域或者一类问题，例如医学领域的核磁图像分割、CT 图像分割，便只能应用于医学领域，泛化性太差，这严重影响了图像分割的进步和发展。

Meta 在 2023 年 4 月份发布 SAM 模型，它可以分割一切类型图像，无论是见过的还是没见过的，一刀分割。这是一项卓越非凡的研究，它克服了图像分割领域目前的泛化性不足的问题，计算机视觉领域进入了新的时代——大一统。SAM 实现了分割模型的大一统，是计算机视觉领域的一重大里程碑。

具身智能: 关键技术大突破

具身智能是指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。具身智能系统通常具备感知、认知、决策和行动的能力，能够通过感知器和执行器与环境进行交互，并根据环境的变化做出相应的决策和行动。——百度百科

其实通俗来讲，目前具身智能最主要的应用领域即人形机器人，在 2023 年，具身智能的在其核心技术方法取得了很多突破性进展。

强化学习是具身智能的主流研究思路。在 2023 年 6 月份，VoxPoser 推出，它使用了 LLM+VLM 架构，能够分析三维世界中的目标和环境障碍，同时帮助机器人进行行动规划，这使得机器人在无需培训的前提下，便可在现实世界执行任务。此外还相继提出了很多提升现实世界样本效率的新算法，例如 SpeedyZero、EfficientZero 等，工作效率较以往提高数百倍。

与智能体发展类似，大模型也可以涉及具身智能领域。DeepMind 实验室发布 Robotic Transformer 模型，这是一款新的视觉语言模型，可以自动从网络中获取数据，进行学习，将学习后的成果转换为机器人控制的通用指令，以控制机器人的运作。

最新研究的 SECANT 模型，这是一种适应新测试环境的自专家克隆方法，针对于亟待解决的零样本泛化问题。

从这些新发展趋势来看，具身智能越来越不需要经过复杂的训练，而是借助大模型和更优秀的算法，实现更具智慧的机器人。但另一方面，具身智能还受着传感器、力学等诸多层面的影响，这是一项综合性极强的学科，期待后续进一步发展。

脑机接口: 结合大模型，解码速度质飞跃

脑机实验作为我们小时候的最渴望的强大念动力，其技术原理主要有赖于：先进的算法来实现智能处理和决策；具备与人类大脑相似的认知架构，包括记忆、分析、感知等诸多模块。

《Nature》其中两篇论文中，利用 AI 技术，瘫痪患者已经可以借助意念实现重新开口说话，相较于以往的算法，错误率降至 22.8%和 25.5%。脑机接口技术在大模型的加持下，其解码速度得到了质的飞跃，有效地提升了其交互能力。

此外，这是一项可以与具身智能密切联系的领域，脑机接口可以处理大脑的电信号，经过解码转化为动作等信息，如果与具身智能进行合作，就可以实现残障人士的智能辅助系统，由脑电波-》解码-》动作控制信息-》具身智能-》日常活动，这是一项极具人性之光的研究。

3D 生成: 迈入涌现期，距离商用更进一步

3D 的世界是绚烂多彩的，是更加具象的，但是在过往的发展中，其往往受限于复杂的模型构建，周期长，成本高，在 2023 年，AI 取得傲人成绩的同时，3D 生成领域也涌现了一批突破性的新算法模型，在质量、效率等多方面都有显著提升。

SIGGRAPH2023 最佳论文《3DGaussianSplattingforReal-TimeRadianceFieldRendering》一种新的可以实现快速高帧率实时渲染的方法⸺3D Gaussian Splatting，其通过优化和密度控制实现对场景的准确表达，并使用快速可见性感知算法来加速训练和实时渲染。论文中实验测试表明，在多项数据集上性能均优于 NeRF 模型，这是一项突破性进展。

就在不远的 10 月份，字节跳动退出一种全新的多视图扩散模型——MVDream，能给根据给定的 prompt 生成几何上一致的多视图图像。该方法通过分数蒸馏抽样寄到的提升了 2D 提升算法的稳定性，改善了 3D 一致性。

OpenAI 发布的 Shap-E、加州大学发布的 One-2-3-45 模型则在效率和准确率方面做了很大的优化，其中 One-2-3-45 从 2D 图像中生成高质量和一致性的 3D 网络只需要 45s 左右。

11 月份，加州大学对 One-2-3-45 进行了再次更新，发布 One-2-3-45++模型，改善了所生成三维模型的生成质量，同时没有较大的影响生成速度(45~60s)

3D 生成正式走向商业化，对行业现状产生冲击，我认为需要有三点核心要点：生成质量、生成效率、可控性。当下 3D 生成的质量还存在一定的差距，并且对于算力的要求很高，这客观提升了 3D 生成的门槛，可控性也是很难把控；因此目前来看，3D 生成距离正式商用还有一段路要走，让我们静待其开出绚烂的花来。

AI 生成: 绘图|视频的飞跃

AI 绘图|视频等生成领域在 2023 年实现了大幅度的飞跃。

ICCV23 最佳论文《Adding Conditional Control to Text-to-Image Diffusion Models》提出了 ControlNet 的模型，只需给预训练扩散模型增加一个额外的输入，就能控制它生成的细节。该模型提供了 openpose、depth、canny 等多种预训练模型，可以实现对生成过程姿态、深度、边缘等多种信息的控制，增强了生成内容的可控性，减少了随机性，走出了迈向商用的关键一步。

2023 年 7 月份《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning》论文，提出 AnimateDiff 通用方法，可以一次性为大多数现有的个性化文本转图像模型提供动画化能力，且无需进行特定模型调整，此外它还实现了无闪烁视频生成的方法，AI 进入视频时代。12 月份，发布 AnimateDiff V3，进一步提升视频生成质量。

也同时在 7 月份，Stable Diffusion XL 1.0 版本发布，对原有 SD 进行了全面升级，生图的质量进一步增强，难度进一步降低。后续的几个月中，又陆续更新了微调训练、Lora、SDXL Turbo 模型等。

9 月份，《IP-Adapter： Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models》发布，垫图神器，不再需要复杂的 Lora 和 Prompt，只需一张图片，就可以完美还原所需，大大降低了 Lora 训练的成本和生图难度。

11 月份，清华大学发布的《LCMs: The next generation of generative models after Latent Diffusion Models (LDMs)》论文中提出 Latent Consistency Models（潜一致性模型），简称 LCM 模型，将生图速度提升 5~10 倍，可以实现秒级生图，实时性 AI 生成得以实现。

在 2023 年，AI 生成每天都在发生着日新月异的改变，越来越简单，相信在不久的将来，我们就可以在端侧轻松实现 AI 生成，AI 真正的走进人们生活。

模型、数据、算力: 全方位同步发展

2023 年，几乎每个月都能看到一款现象级的大模型发布，可以说是我们已经进入"百模大战"时代，这带来了两个比较显著的趋势；其一多模态训练能够处理视觉、文本、听觉等多元化数据，能够有效结合不同类型的信息，更具智能的理解真实世界，多模态预训练逐渐成为当下 AI 的标准流程；其二大模型的轻量化，大模型由远远的云侧开始逐渐移向端侧，AI 服务也开始更接近人们的生活。

数据是大模型的生命之源，优质的大模型需要海量的、高质量数据进行训练，因此大模型的进一步飞跃，数据是移不开的话题。数据并非越多越好，要以高质量为主，当下的很多数据存在种种问题，例如数据不平衡、数据不完整、数据不一致等，这些问题都需要大模型的持续迭代和优化。而且据 Epoch AI Research 团队统计，高质量的文字数据将于 2026 年被耗尽，低质量的文字和图像则分别可用至 2030~2060 年。大模型的发展，离不开数据，否则在 2030 年以后的一段时间中，AI 的发展将会受到阻碍。

算力是大模型的另一个重要资源，目前大模型的算力主要来自于云侧，但云侧的算力也会随着大模型的发展而逐渐向端侧转移，在 2023 年，新硬件、新架构竞相出现。前段时间参加云栖大会，深深感受到当代算力的发展，只能算里无处不在，呈现“多元异构、软硬件协同、绿色集约、云边端一体化”四大特征。

结语

2023 年，AI 发展可谓是日新月异，2024 将展现出更强大的统治力和影响力，在即将到来的 2024 年，除了 23 年的趋势，我认为还有几个点需要注意一番

量子计算与 AI，量子计算已经开始与 AI 进行结合，在 2024 年，量子 AI 利用量子计算机的特殊性质，将深入的改变 AI 的模式，加速 AI 学习和算法，从而实现更高效、更准确的 AI 应用。当然这一切暂时未知，让我们敬请期待，AI + 量子会是怎样的一篇天地吧？
生成式 AI 将会更便利，基于多模态模型的进一步发展，我认为 AI 在未来可以生成一些更完善的内容，并非孤立的图片、音频、文字，而是有机的整体，给予少许提示，直接可以生成一个视频，包含字幕、视频、特效等。
AI 道德与 AI 立法，当下的 AI 还处于混沌秩序，想要正式走到世人面前，道德和法律是 AI 必须要面对的问题。
游戏 NPC 智能的大幅度提升，结合现有的 VR、MR 和 Meta，或许会有划时代的智能游戏的诞生。

AI 的世界很精彩，让我们放开胸怀，做 AI 的践行者，成为未来趋势的把控者。

infoq链接：风起云涌的2023年，异彩纷呈的AI世界——InfoQ