“前言如图”
“8月23日,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享,整个分享干货满满。”
1.1 开场科普
-
李沐将模型训练比作 "炼丹" 过程,巧妙地将其分为三大要素:数据、算力和算法。数据如同炼丹的材料,搜集困难但至关重要;算力类比为炼丹的火力和设备;而算法则是不断改进的炼丹配方。
-
他指出,当前的语言模型与早期的深度学习模型有显著不同。现在的目标是创造一个具有 "灵魂" 的多功能模型,能够解决各种各样的问题,而不仅仅是针对单一任务。
-
展望未来,李沐认为硬件、数据和算法的发展将遵循一定规律,预计在未来几年会持续稳步进展,而非出现突破性跃进。
1.2 硬件趋势
-
新型 GPU 系统如英伟达的 GB200 能在单个机架位容纳多达 72张算力卡,大幅提升了空间利用率。
-
为应对高密度 GPU 带来的散热问题,水冷技术应运而生,虽然提高了算力密度和通讯效率,但也带来了漏水风险和更高的基建要求。
-
紧密排列 GPU 提高了整体通讯效率,类似多核芯片设计,尽管 GPU 和 CPU 间的 PCIe 通讯相对较慢。
-
最后,他指出大规模语言模型对内存需求巨大,当前技术可达 192GB/GPU,但未来可能因占用过多芯片面积而成为瓶颈。
1.3 内存与算力趋势
-
内存大小是模型规模的主要限制因素,尽管英伟达在市场领先,但在内存方面落后于 AMD 和 Google 的 TPU。
-
关于算力,李沐预测长期来看会越来越便宜,特别是在解决带宽和内存问题后。他提到降低浮点数精度可优化硬件,但高能耗成为新挑战。
-
关于英伟达的市场垄断,短期内可能导致算力价格上涨,但长期看来,竞争加剧和摩尔定律作用下算力会变得更便宜。
-
李沐预测语言模型参数主流会在 100B 到 500B 之间,每次预训练使用 10T 到 50T 的 token,因为数据质量和多样性已达到足够规模。
1.4 多模态模型
-
在语音技术方面,新方法直接处理原始语音信号,提供更丰富的信息和更低的延迟。音乐生成技术虽然取得进展,但主要挑战在于版权问题,而非技术本身。
-
图像生成技术已达到接近真实的效果,但仍有提升空间。视频生成则仍处于早期阶段,面临高成本和技术难度。
-
李沐还强调了多模态模型的趋势,即整合文本、图片、视频和声音等不同类型的信息,通过文本指令控制其他模态的输出(跟6月Natrue的论文如出一辙)。
-
李沐认为当前语言模型已经达到了较高的水平,得分在80到85分之间,音频模型处于可接受的水平,得分在70到80分之间。然而,在视频生成方面,尤其是生成具有特定功能的视频,整体水平较低,约为50分。
1.5 产品及交互
-
ChatGPT 的出现改变了用户习惯,从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。
-
虽然目前还未出现新的 AI 杀手级应用,但李沐预测技术发展可能催生出革命性的应用形态。他强调 AI 应用的本质是辅助人类完成任务,为我们提供无限的人力资源。
-
尽管如此,李沐认为 AI 离真正变革世界还有一段距离。
1.6 对AI应用的分类
-
在文科白领方面,AI 在个人助理、呼叫中心、文本处理和教育等领域表现出色,能完成 80% 到 90% 的工作,但复杂任务仍需改进。
-
对于工科白领,特别是程序员,AI 能简化代码检索和调整,但复杂编程仍需人工完成。
-
在蓝领领域,AI 在自动驾驶方面取得显著进展,但在执行如端盘子、运货等复杂物理任务时仍面临巨大挑战。预计 AI 在蓝领工作的初步应用至少需要 5 年时间。
1.7 模型训练过程的挑战与困难
-
数据采集是自动化的关键,但这是个长期过程。李沐区分了预训练(工程问题)和后训练(技术问题)的不同,强调高质量、相关数据和算法改进的重要性。在创业方面,他建议通过微调大模型来提升性能。
-
算法创新面临巨大挑战,特别是在不同规模模型间。关于垂直模型,李沐认为它们仍需通用知识支持。模型评估极其复杂,需要全面、动态的方法。
-
他强调数据决定模型上限,算法决定下限,当前 AI 仍处于 "填鸭式" 学习阶段。最后,李沐提到算力成本主要归于硬件厂商,自建机房和租用 GPU 差异不大。
2.1 三个方向——读博、创业、打工
-
在学术研究方面,李沐强调了适应能力的重要性,包括适应不同的研究领域和导师风格。他指出,对研究的热爱是克服长期缺乏即时反馈挑战的关键。
-
创业被李沐比喻为 "当海盗",充满刺激和不确定性。它要求快速学习、适应市场,并承担风险。虽然创业提供了直接面对社会的机会,但也可能带来巨大压力,影响生活质量。
-
在大公司工作需要确保个人目标与公司一致,而非仅追求个人兴趣。创业公司面临生存压力,需要更高的驱动力。打工人虽有稳定收入和学习机会,但可能限制思维。
2.2 对三种道路的选择逻辑
-
无论选择哪条路径,李沐强调强烈的内在动机 —— 可能源于内心欲望或对失败的恐惧 —— 是长期成功的关键。欲望和恐惧是人类的基本动力,如对名、利、权的追求。面对这些驱动力,关键在于直面并理解它们,而非逃避或放纵。他建议将这些欲望和恐惧转化为积极向上的动机,确保这种动机符合个人价值观。
-
在确定积极动机后,李沐提出了三种解决相关问题的途径:对于具有学术价值的问题,可以考虑攻读博士;有商业价值的问题可以尝试创业;至少有成长价值的问题可以从打工开始。
-
为持续提升自我,李沐分享了一个实用方法:从导师或上级的角度每周总结工作。他建议分析未达成目标的原因,如果是懒惰,要直面并解决,比如找学习伙伴相互监督;如果是能力不足,可以考虑转向擅长领域或增加学习时间。
2.3 结尾与展望
-
李沐通过内部数据验证了一个重要观点:无论学历如何,技术变革将在未来几年对各个层面产生广泛影响。他强调,我们正处于一个机遇与挑战并存的时代。
-
在机遇方面,李沐指出技术变革将惠及广泛群体,包括在校学生(本科、硕士、博士)和刚入职场的新人。这些群体都将从未来几年的技术进步中受益。
-
与上一代相比,现今的人们需要付出更多努力才能享受到时代红利。尽管这些红利仍然存在,但获取它们变得更加困难。
“8月中旬,吴恩达参与了一个访谈节目。在节目中,他对AI的发展现状和未来作出了深入分析,并讨论了AI技术在实际应用中的瓶颈和突破。”
3.1 关于AI前景担忧的看法
-
吴恩达对 AI 的发展持乐观态度,认为过去关于 AI 遇到瓶颈的担忧都被证明是错误的。他强调生成式 AI 和大型语言模型 (LLM) 具有巨大潜力,尽管目前面临硬件供应和推理能力的瓶颈。吴恩达预计这些问题将在未来 1-2 年内得到解决,同时 AI 技术的投资回报率将吸引更多资金流入。
-
他特别看好 AI Agent 和 Agentic Workflow 技术的前景,认为随着硬件改进和推理能力提升,这些技术将显著提高 AI 应用的准确性。吴恩达也指出,训练和推理成本的下降将推动更多 AI 应用的发展。虽然长时间运行的 AI 系统可能面临错误累积的问题,但他相信这可以通过改进架构来克服。
3.2 对于当下技术的看法
-
吴恩达深入探讨了 AI 技术的最新发展和未来方向,重点关注 Agentic Workflow、模型架构、推理速度和基础设施。他介绍了 Agentic Workflow 的优势,强调 AI 能够自主回顾和修复错误,提高系统稳定性。以斯坦福大学的演示为例,AI Agent 在网络搜索失败时自动切换到维基百科,展示了其适应性。
-
关于模型架构,吴恩达认为现有的 Transformer 模型已经表现良好,虽然新架构值得研究,但不是必需的。他强调提高快速推理和生成控制能力更为关键。
-
推理速度被视为当前 AI 应用的主要瓶颈。吴恩达指出,显著提高推理速度(如从 25 分钟缩短到 2 分钟)将极大改善用户体验,推动 AI 应用发展。
-
在讨论 AI 基础设施时,吴恩达认同增加训练投资可能提高模型效率的观点。他提到一些公司正在开发高效的 token 生成技术,并提出了训练和推理基础设施是否应分离的问题,暗示这可能需要新的架构支持。
3.3 业内竞争与商业策略的看法
-
吴恩达指出 LLM 技术具有显著的成本优势,但仅依赖基础模型难以建立长期竞争壁垒。公司需要通过其他技术组件来增强竞争力。
-
关于研究公开性,吴恩达认为尽管出于安全考虑,许多公司不再公开分享方法,但人才和想法的流动使得长期保密变得困难。这种趋势可能带来短期优势,但长期影响有限。
-
开源技术,如 Meta 的 Llama 3,展示了强大的创新潜力。尽管存在安全风险,吴恩达认为开源带来的整体好处更大。Meta 开发 PyTorch 的案例说明了开源在商业战略中的重要性,有助于减少对竞争对手平台的依赖。
-
在 AI 应用竞争方面,吴恩达提到了 OpenAI 的积极推动作用。虽然并非每个项目都成功,但少数成功项目(如 GPT-4)带来了巨大影响,推动了整个行业的技术进步。
-
吴恩达强调 AI 和人类智能各有独特价值,不应简单比较。他倾向关注 AI 的渐进式发展,而非追求达到某个具体标准。Brett Winton 则认为基准测试对推动 AI 商业化至关重要。
3.4 关于企业内部变革的看法
-
吴恩达指出,尽管技术进步迅速,企业的文化变革和内部管理变革往往出人意料地缓慢,甚至简单的物质配置改变也可能需要数年时间。这种组织惰性与技术发展的快速步伐形成鲜明对比。
-
然而,吴恩达强调生成式 AI 已经开始显著提高知识型工作的效率。他认为,当前几乎每种知识型工作都能通过生成式 AI 获得效率提升,这一现象令人振奋。
-
尽管企业变革速度缓慢,吴恩达对技术推动企业重新思考工作流程的潜力保持乐观。他相信,通过持续推动技术创新,能够加速企业的变革进程,帮助企业更好地适应快速变化的商业环境。
原文满天飞,自己看吧,就不描花边儿了: