多模态数据湖焕新升级,企业新一代AI Native的数据基建

大模型向量数据库火山方舟

picture.image

在人工智能大模型与智能体应用迅猛发展的时代浪潮下,图像、文本、音视频等多模态数据量正以前所未有的速度持续激增。

面对海量数据,如何高效处理并充分赋能模型应用,进而构建契合 AI 时代需求的新一代数据基础设施,已然成为众多企业高度关注的焦点议题。

2025年6月11日,在北京举行的火山引擎FORCE原动力大会上,火山引擎数智平台产品负责人王彦辉分析了当前数据基础设施领域的趋势和挑战,并介绍了基于“多模态数据湖”的新一代AI云原生数据基础建设方案。

picture.image

以下为演讲全文:

大家下午好!我是来自火山引擎数智平台的王彦辉。今天我为大家带来多模态数据湖新一代AI云原生数据基建的分享。

首先,我们来看几个新的发展趋势。

picture.image

根据IDC的预测,多模态数据规模从24年到29年在中国和全球范围内都处在一个高速增长阶段。6年内增长3倍以上,年均复合增长率接近30%。且4成以上的数据在云端产生,6成以上的数据存储在云上。

另外,随着多模态大模型能力快速提升,以及Agent应用百花齐放,我们认为多模态数据的处理和加工需求会随之快速爆发。

新趋势下,我们回顾当前数据基础设施面临着新挑战。

picture.image

一是多模态数据的处理能力不足,之前数据平台更多围绕结构化、半结构化数据处理来建设,多模态数据处理的能力储备不足。

二是数据碎片化严重,数据分散在各业务单元,缺乏统一、集中的管理,导致企业的agent应用难以和自身业务数据相结合。

三是数据质量问题,随着数据服务的对象转向大模型应用演进,如何度量数据的有效性和价值,已经成为数据团队新的挑战。

第四点是在人来消费数据,演进到用模型来消费数据,如何模型可以理解数据使用数据,需要新数据组织和管理方式,统一Catalog、数据标签等能力亟待加强。

新挑战下,同样也孕育着新的机会。

picture.image

过去二十年里,我们看到数据技术栈几次大升级。

在PC时代,人们还是通过报表和各种分析的工具来消费数据,由于数据规模快速膨胀,处理的数据量级从GB级别扩展到PB和EB级别,数据基础设施核心要解决计算和存储扩展性问题.

大规模、分布式是技术演进的趋势,诞生了Hadoop、Hive等一代大数据的开源技术栈。

随着移动互联网兴起,人们更多地通过APP和各种API来使用和消费数据,实时化成为对数据平台新需求,实时推荐和实时分析场景不断涌现,诞生了Flink、Spark Streaming、Kafka等技术栈。

在Agent时代,数据需要更多的和Agent进行交互,相互作用,驱动模型能力不断提升,新趋势下要求数据和模型能力更好的协同,数据基础设施也在向多模态数据湖、向量数据库和知识图谱等技术栈演进。

picture.image

在这个大背景下,火山引擎推出了多模态数据湖的解决方案。

解决方案包括4个组成部分:

  1. 豆包、Deepseek模型、以及Ray为核心的数据湖计算。

  2. 多模态数据湖格式Lance为核心的数据湖存储,可以部署在Vepfs、Tos等存储产品上,通过Proton实现缓存加速。

  3. ByteHouse实现多模态数据数据的检索和分析,实现对图片、音频等数据快速探查,数据问题可以快速定位和排查。

  4. LAS实现多模态数据湖的管理,包括统一的Catalog管理、数据集管理和多模态数据处理算子编排和管理。

picture.image

多模态数据湖解决方案有以下方面的优势:

一是GPU+CPU的异构计算,CPU用来做数据处理和加工,GPU用来做大规模的数据推理和标注,通过有效的资源编排,可以大幅优化资源使用效率,降低用户资源成本。

二是开源和开放,方案主要采用开源技术栈,提供企业级能力增强,便于用户集成,避免云厂商锁定,保证了方案演进的灵活性。

三是采用了Ray、Lance等新一代技术栈,经过客户大规模的生产实践,为客户提供可靠性的保障。

四是与火山方舟、VeMLP机器学习平台、Data Agent密切联动,形成了完整的AI数据生态。

下面我们来看几个多模态数据湖的Demo,直观了解下多模态数据湖是怎么运作的。

第一个例子,如果你想对图片数据进行一个批量的清晰度增强,你可以使用AI数据湖服务的数据集和数据算子能力。

在Trea中通过自然语言的方式输入你想执行的操作,通过MCP Server调用LAS的数据增强操作,完成数据处理的操作。

picture.image

第二个例子,是一个数据检索和分析的例子,如何对数据湖中的数据进行快速检索和查询。

首先你可以在LAS中创建一个数据集,然后使用LAS中调用数据Embedding处理算子,对数据进行向量化。最后你可以通过ByteHouse完成数据相似度检索。

picture.image

第三个例子,是一个数据蒸馏和模型微调的例子,用户可以在方舟平台蒸馏数据,数据可以一键回流到LAS中,在LAS进行清洗和处理,处理完成后用户可以微调自己的模型。

整个过程实现了Data+AI完整的数据生态闭环,我们也可以更直观的看到数据使用的场景正逐渐从BI过渡到AI,为模型服务。让人来使用和消费数据,变成让模型来消费数据。

picture.image

最后我们来看两个客户案例,第一个案例是一个国内领先车企,客户希望通过端到端大模型优化和升级辅助驾驶能力。

客户痛点:

  1. 异构计算导致的数据处理效率低:无法在一个工作流里同时调用 CPU和GPU 资源,完成一次处理 PB 级别数据需要数天以上,影响模型迭代效率。

  2. 数据自动标注时,GPU无法并发,资源利用率低:单卡GPU一次只能支持一个标注模型,剩余未打满的资源将会出现闲置情况。

  3. 数据管理成本较高:使用LMDB数据存储格式,每次增加某列推理标注时,需要读取和重建全量数据集。

picture.image

解决方案:

在推理过程中,EMR Ray on GPU 支持单卡并发模式,单卡 GPU 可以同时支持多个并发标注推理模型,充分利用计算资源,避免大量资源闲置浪费。

由于LAS数据集目前已经支持Lance格式,Lance可以和数据压缩算法结合,可以大幅优化存储空间,同时Lance提供了灵活的增减列能力,大幅优化数据存储效率。

方案落地后,端到端的数据训练提速1.5倍,资源使用效率提升到95%,存储成本降低至之前1/4。

picture.image

第二个案例是一个AI内容营销创新企业使用多模态数据湖的案例,客户通过数据挖掘、数据分析等方式,为各行业提供个性化的内容营销解决方案。

picture.image

用户主要痛点是开发效率和作业运行效率问题,之前的技术栈多,数据链路复杂,拖慢了业务的敏捷性。

picture.image

通过LAS数据处理算子提供的可视化工作流编排,客户大幅提升了Pipeline开发效率。

通过LAS提供的三方集成能力,用户可以快速将自定义镜像部署在云上环境里。同时,LAS和ByteHouse提供的全托管资源管理方案,可以实现资源的灵活调度、弹性伸缩。

方案落地后,开发效率提升50%,数据处理效率提升5倍,技术栈也大大简化。


今天我们一起回顾了数据基础设施演进的新趋势、面临的新挑战,以及AI云原生下的新一代数据基础设施——多模态数据湖;分享了我们落地的2个客户案例,我们也希望通过新方案、新产品助力更多客户迈进AI新时代,谢谢。

👏 Data+AI 推荐阅读:

picture.image

picture.image

picture.image

picture.image

点击阅读原文,

申请体验【多模态数据湖解决方案】

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论