随着智能驾驶技术的普及,摄像头拍摄的图像、激光雷达生成的点云、麦克风采集的音频等非结构化数据海量涌现。这些数据规模庞大、形式多样且实时性强,要求底层数据技术具备高效存储与快速处理能力。
火山引擎多模态数据湖解决方案是面向 AI 时代的智能数据新基建,完整覆盖湖计算、湖存储、湖管理、湖分析等场景。
方案中的AI数据湖服务LAS能够实现对文本、图像、音视频等非结构化数据资产的统一精细化管理,同时也能为模型预训练、后训练、AI 应用构建与开发提供端到端的智能数据服务。
近期,火山引擎LAS在智能驾驶场景中实现了应用和落地。
本篇文章将聚焦在“智能驾驶”场景,拆解LAS的核心湖存储格式——Lance,如何实现快速构建新一代 AI 数据湖,并高效存储、管理和处理多模态数据(文本、图像、音视频等)。
方案背景
A客户是一家来自中国的知名汽车企业,专注智驾网联(Intelligent Connected Vehicle)场景。
本文针对该客户在智能驾驶场景中海量多模态数据(文本 / 图像 / 点云等)的管理与处理挑战,提出基于 Lance 格式的 AI 数据湖解决方案。
核心通过三大技术实现突破:
1. Zero-Cost Data Evolution: 动态标注场景下新增数据列无需重写历史数据集,降低 30% 存储成本。
2. 透明压缩: ZSTD 编码压缩点云数据达 70% 压缩率,显著减少网络带宽压力。
3. 点查询优化: 列投影与轻量级 shuffle 机制提升训练效率,GPU 利用率达 96%。
方案已落地某车企客户,实现 EB 级数据处理效率提升 3 倍,模型训练交付提速 40%。下文将具体展开客户痛点与技术实现路径。
难点与挑战
在构建智驾系统的过程中,A客户面临以下挑战:
数据爆炸 :
实时采集车辆多模态数据(摄像头、激光雷达等),单辆测试车每日产生数 TB 数据,量产车规模扩大后可达 EB 级。海量非结构化数据(如驾驶视频)需转化为结构化信息(如目标检测、路径规划)。
核心问题 :
1. 存储 :如何在降低数据存储成本的同时,依然能在点查和范围扫描的场景上性能无损失
-
计算:如何高效实现单机实验到生产工程化,按时交付大规模数据。
-
检索:如何快速挖掘海量非结构化数据中的业务价值。
-
管理:如何跟踪数据处理 pipeline,持续优化流程。
方案详情
/ 架构升级: Lance驱动的解决方案
优
势一:数据挖掘与管理
1. 客户痛点 :客户原先使用 LMDB 存储格式,每次增加推理标注列时需读取和重写全量数据集,导致数据重复和存储膨胀,GPU 资源浪费严重。
2. Lance 方案 :通过统一元数据管理,支持增量更新,无需重写历史数据。实测减少存储成本 30%,管理效率提升 50%。
优势二:模型训练优化
1. 客户痛点 :训练任务需高效利用 GPU 资源,确保稳定性和迭代速度。传统方法因 IO 放大和内存膨胀导致 GPU 利用率仅 60%。
2. Lance 方案 :点查询功能(Point Query)实现轻量级数据 shuffle 和列投影,仅读取必要字段,避免 IO 放大。 客户实测 :单机 8*A100 GPU 利用率从 60% 提升至 96%,训练任务交付时间缩短 40%。
/ Lance核心优势
1. Zero-Cost Data Evolution
在智能驾驶场景,数据标注精细度决定模型性能上限。
Lance提供 zero-cost data evolution 机制 ,有力的支持了动态标注场景:
- 交通要素自动标注 :红绿灯、交通标志等。
-
动态参与者标注:行人、车辆轨迹。
- 环境条件标注 :光照、降水、能见度。
在使用对应场景的数据集进行微调模型时,需要基于一些标签筛选出特性场景的数据集,这个时候就需要一些标签数据,例如是否是阴天的图片,是否是有行人的图片,而这些标签的自动标注的过程其实一个增加列的行为。
传统方法(如 LMDB 或 Pickle)在新增列时需重写数据集,耗费大量资源。而Lance 支持通过操作清单(Manifest)元数据实现数据集的快速schema evolution。而不需要重写历史数据,只需要对变更的数据重新更新到元数据中即可。
-
列添加:通过向每个片段添加新列的数据文件(DataFile)来实现。
客户实测效果 :
- 推理吞吐量提升50%: 单机8*A100 GPU利用率从60%提升至90%
- E2E处理效率提升3倍 : 10PB 数据的标签处理由4Days变成1Day
2. Transparent compression
Lance 支持ZSTD压缩编码,对点云和标签数据具有较高的压缩比,能够很好的实现压缩存储空间占用同时还能够降低网络带宽。
而且Lance本身的压缩是定义在schema中的,对于数据的写入或者读取是无感的,透明的,所以易用性有很大提升。
成本收益 :
3. Point Query For AI Train
Lance 的点查询机制解决训练场景瓶颈:
/ 总结
Lance 在智能驾驶场景中实现了数据管理、训练效率和成本优化的突破。通过 Zero-Cost Data Evolution、透明压缩和点查询等特性,客户 PB 级数据处理效率提升 3 倍,GPU利用率稳定在90%以上。
欢迎 AI 从业者加入 Lance 社区,共同构建下一代 AI 数据基础设施。
Lance 中文社区正式启航! 欢迎关注:
👏 Data+AI 推荐阅读:
点击阅读原文,
申请体验【多模态数据湖解决方案】