火山引擎LAS基于Lance的PB级智驾数据湖方案

大数据机器学习数据库

picture.image

随着智能驾驶技术的普及,摄像头拍摄的图像、激光雷达生成的点云、麦克风采集的音频等非结构化数据海量涌现。这些数据规模庞大、形式多样且实时性强,要求底层数据技术具备高效存储与快速处理能力。

火山引擎多模态数据湖解决方案是面向 AI 时代的智能数据新基建,完整覆盖湖计算、湖存储、湖管理、湖分析等场景。

方案中的AI数据湖服务LAS能够实现对文本、图像、音视频等非结构化数据资产的统一精细化管理,同时也能为模型预训练、后训练、AI 应用构建与开发提供端到端的智能数据服务。

近期,火山引擎LAS在智能驾驶场景中实现了应用和落地。

本篇文章将聚焦在“智能驾驶”场景,拆解LAS的核心湖存储格式——Lance,如何实现快速构建新一代 AI 数据湖,并高效存储、管理和处理多模态数据(文本、图像、音视频等)。

方案背景

A客户是一家来自中国的知名汽车企业,专注智驾网联(Intelligent Connected Vehicle)场景。

本文针对该客户在智能驾驶场景中海量多模态数据(文本 / 图像 / 点云等)的管理与处理挑战,提出基于 Lance 格式的 AI 数据湖解决方案。

核心通过三大技术实现突破:

1. Zero-Cost Data Evolution: 动态标注场景下新增数据列无需重写历史数据集,降低 30% 存储成本。

2. 透明压缩: ZSTD 编码压缩点云数据达 70% 压缩率,显著减少网络带宽压力。

3. 点查询优化: 列投影与轻量级 shuffle 机制提升训练效率,GPU 利用率达 96%。

方案已落地某车企客户,实现 EB 级数据处理效率提升 3 倍,模型训练交付提速 40%。下文将具体展开客户痛点与技术实现路径。

难点与挑战

在构建智驾系统的过程中,A客户面临以下挑战:

数据爆炸

实时采集车辆多模态数据(摄像头、激光雷达等),单辆测试车每日产生数 TB 数据,量产车规模扩大后可达 EB 级。海量非结构化数据(如驾驶视频)需转化为结构化信息(如目标检测、路径规划)。

核心问题

1. 存储 :如何在降低数据存储成本的同时,依然能在点查和范围扫描的场景上性能无损失

  1. 计算:如何高效实现单机实验到生产工程化,按时交付大规模数据。

  2. 检索:如何快速挖掘海量非结构化数据中的业务价值。

  3. 管理:如何跟踪数据处理 pipeline,持续优化流程。

方案详情

/ 架构升级: Lance驱动的解决方案

picture.image

势一:数据挖掘与管理

1. 客户痛点 :客户原先使用 LMDB 存储格式,每次增加推理标注列时需读取和重写全量数据集,导致数据重复和存储膨胀,GPU 资源浪费严重。

2. Lance 方案 :通过统一元数据管理,支持增量更新,无需重写历史数据。实测减少存储成本 30%,管理效率提升 50%。

优势二:模型训练优化

1. 客户痛点 :训练任务需高效利用 GPU 资源,确保稳定性和迭代速度。传统方法因 IO 放大和内存膨胀导致 GPU 利用率仅 60%。

2. Lance 方案 :点查询功能(Point Query)实现轻量级数据 shuffle 和列投影,仅读取必要字段,避免 IO 放大。 客户实测 :单机 8*A100 GPU 利用率从 60% 提升至 96%,训练任务交付时间缩短 40%。

/ Lance核心优势

1. Zero-Cost Data Evolution

在智能驾驶场景,数据标注精细度决定模型性能上限。

Lance提供 zero-cost data evolution 机制 ,有力的支持了动态标注场景:

- 交通要素自动标注 :红绿灯、交通标志等。

  • 动态参与者标注:行人、车辆轨迹。

    - 环境条件标注 :光照、降水、能见度。

在使用对应场景的数据集进行微调模型时,需要基于一些标签筛选出特性场景的数据集,这个时候就需要一些标签数据,例如是否是阴天的图片,是否是有行人的图片,而这些标签的自动标注的过程其实一个增加列的行为。

picture.image

picture.image

传统方法(如 LMDB 或 Pickle)在新增列时需重写数据集,耗费大量资源。而Lance 支持通过操作清单(Manifest)元数据实现数据集的快速schema evolution。而不需要重写历史数据,只需要对变更的数据重新更新到元数据中即可。

  • 列添加:通过向每个片段添加新列的数据文件(DataFile)来实现。

    客户实测效果

    - 推理吞吐量提升50%: 单机8*A100 GPU利用率从60%提升至90%

    - E2E处理效率提升3倍 : 10PB 数据的标签处理由4Days变成1Day

2. Transparent compression

picture.image

Lance 支持ZSTD压缩编码,对点云和标签数据具有较高的压缩比,能够很好的实现压缩存储空间占用同时还能够降低网络带宽。

而且Lance本身的压缩是定义在schema中的,对于数据的写入或者读取是无感的,透明的,所以易用性有很大提升。

成本收益

picture.image

3. Point Query For AI Train

picture.image

Lance 的点查询机制解决训练场景瓶颈:

picture.image

/ 总结

Lance 在智能驾驶场景中实现了数据管理、训练效率和成本优化的突破。通过 Zero-Cost Data Evolution、透明压缩和点查询等特性,客户 PB 级数据处理效率提升 3 倍,GPU利用率稳定在90%以上。

欢迎 AI 从业者加入 Lance 社区,共同构建下一代 AI 数据基础设施。

Lance 中文社区正式启航! 欢迎关注:

👏 Data+AI 推荐阅读:

picture.image

picture.image

picture.image

picture.image

点击阅读原文,

申请体验【多模态数据湖解决方案】

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论