当企业的数据80%都是视频、音频等非结构化内容时,我们该如何为AI准备好这份“数据燃料”?多模态数据湖,或许正开启一个新的纪元。
本期节目,我们特邀 火山引擎数智平台产品总监-彦辉 ,深入聊聊在AI时代,传统数据基建正面临哪些前所未有的挑战?
多模态数据湖又如何通过统一存储、高性能访问和灵活计算架构,成为企业AI转型不可或缺的数据新基石,助力企业真正实现从BI到AI的智能越阶?
本期内容干货满满~更多关于多模态数据湖的行业实践、架构解析与未来趋势…欢迎点击完整音频收听!
以下内容为部分节目实录,
完整节目欢迎扫描下方二维码收听:
Q:请先为大家梳理一下这些年数据基础设施的发展吧。
彦辉: 在我的印象中,2010年之前,数据基础设施建设主要围绕传统数据库展开,服务对象多为大型银行、外资企业及其他大型机构。
当时国内引进了不少关系型数据库,随着数据存储规模逐渐扩大,许多大型企业开始引入国外商业化数据仓库产品,如Greenplum、SAP、BW等技术栈,并在国内逐步落地应用。
这一阶段的重点在于解决业务系统分析需求,随着SAP等ERP产品在国内的实践与推广,企业越来越多地借助数据仓库技术来呈现业务数据报表,并普遍采用星型模型、雪花模型等数据建模方法。
2010年后,大数据技术首先在国外普及,国内约在2015年左右开始广泛应用。面对数据量从GB、TB到PB级别的快速增长,企业亟需实现高并发数据分析与处理,以生成有效支持经营决策的报表。
与此同时,搜索、推荐和广告等新型应用也在大数据浪潮中迅速兴起。相应的数据基础设施技术,如Hadoop、Spark、Presto等离线与分析技术栈,成为数据工程师的首选工具,企业普遍延续了数据仓库与数据工程师协作的模式。
2015年后,公有云的兴起进一步推动了大数据的普及。许多企业从自建大数据集群转向云端服务,云上技术如弹性伸缩和存算分离逐渐成熟。
大数据技术栈也随之演变,从以Flink为代表的实时计算技术兴起,到2020年左右数据湖理念开始流行,出现了Iceberg、Hudi等主流数据湖技术栈。
到了2023年,大模型技术的快速迭代推动数据基础设施进入新一轮变革。
多模态数据的分析与查询需求以及数据规模均呈现指数级增长,推动AI数据基础设施持续演进。从早期的ERP系统,到经营分析报表、搜索推荐广告技术,再到当前大模型驱动的AI应用,每一次技术跃迁都受关键应用的推动。
如今,AI Agent正成为推动数据技术栈向前发展的新趋势与驱动力。
Q:能不能展开讲讲驱动数据基础设施演进变化的核心因素?
彦辉: 我觉得驱动数据基础设施演进最直观的因素是数据规模的巨大变化,从最初的兆字节级别发展到如今的GB、TB、PB乃至EB级别的多模态数据。
然而更深层次来看,这背后其实是对数据时效性和数据价值提取方式提出了更高要求。
早期数据量较小时,核心需求是如何将有限数据转化为结构化报表,这一应用需求直接推动了数据仓库等技术的发展。
到了搜索推荐广告时代,技术重点转向如何服务机器学习模型,需要做好指标管理、维度管理和特征工程,这些需求成为当时数据基建发展的核心驱动力。
而进入大模型时代,关键挑战在于如何从非结构化数据中提取价值,比如向量处理技术,以及处理更高维度新型数据的方法,这些数据处理范式的变革正成为推动当前数据基础设施迭代演进的关键因素。
Q:最近行业内有观点认为:当前对于数据基础设施领域是最好的时代,因为 AI 让多模态数据处理的需求爆发了。对这个观点你是怎么看的?
彦辉: 我十分赞同这个观点。在数据基础设施领域,正如刚才提到的,2020年之后的技术迭代速度确实比之前明显放缓。
这背后的关键原因在于业务驱动的变革节奏减缓了——随着搜索、推荐等技术的成熟和稳定,市场对数据基础设施的新需求不再像以往那样迫切,现有技术已能基本满足用户需求,导致数据使用范式发生根本性变化的频率大幅降低。
然而大模型的出现彻底改变了这一局面。
自2023年以来,我们深切感受到大模型对数据使用方式带来的颠覆性变化。无论是数据处理的主体、使用方法,还是价值提取模式都发生了重大转变。
我们观察到,接触大模型的客户在计算和使用数据的方式上给我们带来了深刻影响:过去的数据系统主要处理结构化报表,或是将半结构化的JSON数据转换为规整的表结构;
而现在的大语言模型则需要处理网页内容、PDF解析文本等非结构化数据,同时还要应对多模态的输入输出。
这种转变使得对不同模态数据进行联合处理和加工变得至关重要。因此,我坚信正是AI领域涌现的这些关键应用,最终驱动了数据处理范式的根本性变革。
Q:对火山引擎的多模态数据湖而言,这个时代意味着什么呢?
彦辉: 正如我刚才提到的,用户对多模态数据的使用已成为主流方式。在这种背景下,我们开始思考上一代数据基础设施在AI时代面临哪些挑战。
对我们而言,核心变化在于处理对象从单一模态转向了多模态。
所谓单一模态,可以理解为纯文本或结构化表格这类单一形式的数据;而多模态则意味着需要同时处理多种类型的数据,例如某些应用中可能同时包含声音、描述文字、标题和图片——这些数据的加工处理和生成方式,其输入与输出都是典型的多模态形态。
这促使我们去深入探究多模态数据在使用过程和管理方式上究竟发生了哪些根本性变化。基于这些思考,我们总结出了"多模态数据湖"这一解决方案。
该方案主要从存储、计算和管理三个维度出发,旨在帮助用户更高效地完成多模态数据的清洗与加工,促进其与AI应用的深度融合,最终加速客户AI应用的落地进程——这正是我们构建多模态数据湖的初衷。
Q:火山在去年发布了多模态数据湖的方案,2025年的多模态数据湖和一年之前的方案有哪些不同了?
彦辉: 自2024年提出多模态数据湖解决方案以来,我觉得今年这一概念已经发生了比较显著的演进。
最初我们主要聚焦于计算与存储能力,但随着数据规模的持续扩大,如何有效管理数据成为日益严峻的挑战。
相较于以往占用空间小、管理成本低的文本数据,如今需要处理的是包含图像、视频、音频等更为复杂的多模态数据,以及不同模态间的相互转换,这使得管理复杂度大幅提升,由此我们提出了"湖管理"这一核心概念。
同时,我们观察到用户在使用数据过程中面临着新的需求:如何快速检索所需数据,如何识别数据在丰富度、信息密度和多样性方面的不足。
为此,我们进一步引入了"湖分析"与"湖检索"功能模块,通过与ByteHouse产品的深度整合,在数据湖基础上实现实时分析与检索能力,帮助用户快速定位数据缺陷并解决使用过程中的各类问题。
这一方案其实已经在部分客户中成功落地。例如,某基础模型客户的数据运营团队通过我们的数据湖管理与分析工具,快速发现了原有数据标注存在的问题,并能够及时对标注内容进行调整优化。这些工具显著提升了用户在数据修正和标注方面的工作效率,切实为客户创造了实际价值。
Q:我们的多模态数据湖方案强调开放灵活,这个特点是基于怎样的考量来提出来的呢?
彦辉: 我们比较坚持内部技术与外部开源生态的协同发展,并实现了技术方案的内外复用。
之所以特别强调开源,是因为内部的数据基础设施始终构建在开源技术栈之上,这也构成了我们与众多国内外顶尖技术企业的一个显著差异点。
选择开源不仅能让我们紧密跟进社区动态、灵活引入先进技术,还能借助开源生态中已经形成的优秀软件集成体系。
从商业化角度看,开源技术在ToB市场也更容易被用户接受和认可。目前越来越多的企业客户确实更倾向于采用基于开源的技术方案。
这既符合我们自身的技术需求,也契合市场用户的普遍选择,因此我们在启动多模态数据湖项目之初,就系统评估了市面上可供采用的开源技术栈。
尽管相关技术爆发速度极快、成熟度参差不齐,我们仍需要及时引入相对成熟且具有发展潜力的方案,这就要求我们必须对技术选型做出前瞻性判断,准确识别哪些社区在未来具备更高的成长性。
以多模态数据存储方案的选择为例,在发现用户使用Parquet等传统格式无法满足多模态数据存储需求、且在点查场景下存在性能瓶颈后,我们系统调研了多个开源技术栈,经过综合比较社区活跃度、技术灵活度与发展前景等多方面因素,我们最终选择了Lance作为多模态数据湖的底层存储架构。
Q:在开放灵活之上,我们产品真正的竞争壁垒是什么?
彦辉: 我认为构建竞争壁垒的核心其实还是在于生态体系的建设。
以多模态数据湖为例,尽管其底层涉及诸多开源技术,但我们在火山引擎平台上形成了独特的生态优势和竞争力。
我们不仅集成了豆包体系这一优质的模型资源,并实现了深度联动,还将ByteHouse、Flink、EMR等产品与我们最新推出的AI数据湖服务进行了有机整合,形成了紧密协作的产品矩阵。
这种生态优势具体体现在:我们的Flink、ByteHouse等产品均支持直接读写对象存储TOS,实现了产品间的高效协同。
虽然单个产品开源成分较高,但通过产品间的无缝联动,我们为用户提供了更便捷的使用体验和更灵活的解决方案。这种生态化的产品整合能力,正是我们在火山引擎构建的核心竞争壁垒。
Q:在今年火山的 FORCE 大会上,你分享了一个自动驾驶企业的案例,他们通过采用多模态数据湖方案,模型提速了 1.5 倍,资源利用率达到了95%,储存成本降低到了 1/ 4。能不能讲讲这个项目背后的故事?
彦辉: 自动驾驶行业我们认为在2024至2025年间有一个爆发式增长的态势,随着端到端大模型需求的普及,越来越多车企开始着手构建自己的端到端大模型体系。
然而我们观察到,当前用户的数据使用方式尚未与模型生成流程有效契合,这直接导致数据生产效率受限,难以满足及时交付需求。
此前这家企业主要依赖手写Python脚本直接调用GPU资源,其分布式处理能力相对薄弱,虽然在算法同学处理简单需求时尚可应对,但已无法适应现阶段的发展要求。
为此,我们引入了Ray技术栈及Data Loader等方案,显著提升了资源利用效率。
同时,通过采用有效的数据压缩技术,我们大幅降低了用户存储成本及对象存储的IO需求——特别是通过引入LAS技术栈,实现了对点云与图像数据的高效压缩,完成了重要的技术升级并取得了显著的应用成效。
这一成果得益于我们始终从客户实际业务场景出发,充分发挥自身技术栈优势,通过大量投入实现了技术与需求的高度匹配。在取得预期效果后,我们与客户共同进行了深入的复盘总结。
目前,这些技术方案已陆续产品化并集成至我们的引擎产品中,未来不仅可复用于同类需求的自动驾驶客户,也能拓展至具身智能及其他拥有海量音视频、图像数据的多元场景,为更多用户提供成熟可靠的产品能力。
Q:多模态数据湖在哪些行业应用潜力会比较大?
彦辉: 我觉得多模态数据湖的潜力行业,关键在于那些能够产生大规模多模态数据,或是能通过多模态数据创造显著价值的领域。我们认为目前有几个主要方向:
首先是今年快速兴起的具身智能行业,越来越多的客户和行业实践开始运用各类机器人解决实际问题,为生活带来更多可能性。
其次是智能穿戴设备领域,这类需求正日益旺盛,例如我们Olafriend AI耳机就成功融合了AI能力与耳机功能,还有各类智能眼镜等设备,这些都代表着未来极具潜力的发展方向。
同时,随着强化学习技术成为今年行业热点,众多智能体的落地应用都依赖于这项技术,我们认为这同样是一个充满前景的重要行业。
Q:对于已经有数仓和大数据平台的企业而言,你认为他们在 AI 时代转型最大的适应成本是技术栈的变化,还是团队技能模型的升级呢?
彦辉: 我觉得对于已拥有数据仓库和大数据平台的企业而言,在适应AI转型过程中,技术栈变化与团队技能升级实际上是同一问题的两个层面——核心在于如何让团队在新时代创造更大价值。
这需要通过技术栈升级和团队能力提升共同实现,而最关键的是如何将新技术与业务需求深度融合,并准确评估其带来的业务收益。
从实践角度看,最大的挑战在于如何让新技术在业务演进中快速释放价值。
以Lance技术栈的演进为例,我们可以看到这一过程的典型路径:
我们有一家企业客户,最初引入Lance是为了解决存算分离架构下对象存储的性能瓶颈,这是第一层价值;
随后发现它还能提供更灵活的数据管理能力,比如自动加列功能,这是第二层收益;
接着又发掘出其在点查性能上的优势,进而将应用场景扩展到训练环节;最终将其确立为数据湖标准格式,并在此基础上解决平台化管理问题。
这个案例清晰地展示了一个新技术栈的落地轨迹,是从解决核心架构痛点开始,逐步拓展到更多业务场景,最终成为支撑企业数字化转型的中台能力。
整个过程始终围绕着业务价值的实现展开,证明了技术升级必须与业务需求紧密对接,才能实现持续的价值创造。
更多多模态数据湖及行业前沿观点
欢迎扫描下方二维码
收听完整播客节目~
👏 Data+AI 推荐阅读:
点击阅读原文,收听本期播客节目
