9月2日,火山引擎数据智能科技峰会在杭州举办,字节跳动数据平台负责人罗旋在会上首次发布火山引擎数智平台 VeDI 技术图谱。
罗旋介绍,火山引擎数智平台 VeDI 的技术能力囊括“大数据引擎”、“大数据管理”和“大数据应用”3大核心方向,覆盖“数据存储”、“数据计算”、“行为分析”、“智能洞察”在内的13大细分场景。
本次发布的技术图谱,总共展示了火山引擎数智平台 VeDI 近百个开放中的数据技术能力。这些数据技术能力均来自于字节跳动数据平台多年实践经验的积累与沉淀。
2017年以前,字节跳动数据平台每天处理的数据量级大约在200TB,但这个数字在去年却突破了1500PB,每日新增数据大约在40PB。
急速攀升的数据量带来了更高的数据响应要求。
以抖音为例,在刚刚过去的“2022抖音818好物节”中,成交额破百万直播间达3894个,每个直播间的主播和商家都需要实时监测直播带货数据效果,以便能调整货品上架及促销策略。这就要求数据引擎必须具备更高性能,从而实现对海量数据更快、更准、更稳地进行响应。
目前,火山引擎数智平台VeDI所沉淀的数据引擎层技术能力,正湖仓一体分析服务LAS、Stateless 云原生开源大数据平台E-MapReduce(以下简称“EMR”)和云原生数据仓库ByteHouse等产品开放给企业级客户。
作为源自于字节跳动内部实践的云原生智能实时湖仓,LAS提供强大的数据存储能力和计算能力,具备批流一体、跨源数据分析等技术特色,在实际应用上可支持智能实时的湖仓构建,兼具10EB级别数据存储等能力。在元数据服务层面,LAS提供多引擎、多租户、多区域等能力以及行列细粒度的权限管理服务,支持智能的元数据发现。
而作为云原生开源大数据平台,EMR支持结构化、非结构化数据,数据冷热分层存储,具备高效的数据与元数据缓存功能。在数据计算领域,EMR提供Stateless瞬态计算集群、多类型工作负载计算能力,支持开源生态与云上生态适配。
云原生数据仓库ByteHouse具备实时、高性能的数据计算能力,同时也提供自研查询优化器、丰富的自研表引擎、无服务器(Serverless)功能,实现随用随取、弹性可扩展。
除了数据引擎能力外,本次图谱还公布了火山引擎数智平台VeDI在大数据管理上的亮点技术。
火山引擎数智平台VeDI通过数据研发治理套件DataLeap,为企业提供了基于字节大数据研发流程沉淀的DataOps敏捷研发流程、海量任务秒级调度能力和开源计算引擎的拓展能力 ;在数据治理上,提供了分布式自治、全链路治理等服务;在数据资产建设上,具备数据资产快速接入及自动构建全链路血缘等技术能力。
另外,本次图谱还展示了行为分析、策略调优、画像分析、智能营销、智能洞察等数据应用环节上的多项技术能力。
智能营销技术上,火山引擎数智平台VeDI通过客户数据平台VeCDP,为用户提供跨源数据融合,拖拉拽方式完成主体ID-Mapping,自动生成OneID,实现数据积累和标签管理;此外,增长营销平台GMP能够依据企业的具体业务需求, 通过全终端触点触达、智能策略、算法推荐、活动完整流程管理帮助企业实现降本增效以及业务持续增长。
智能洞察方面,则通过DataWind产品提供了AI与BI能力融合建模,对数据进行全链路监控并且智能归因,从而为精细化运营奠定基础,提升业务层面的整体营销转化效率。
截至2022年8月,火山引擎数智平台VeDI将来自字节跳动数据平台多年的技术经验,以产品化的形式向企业开放,让企业能“开箱即用”数智技术。
从高性能的数据引擎、一站式大数据管理,再到贴合业务实际的数据应用,火山引擎VeDI技术图谱清晰勾勒了自身在“大数据引擎”、“大数据管理”和“大数据应用”端到端的技术能力,并为正在践行数字化的企业提供了从PaaS层到SaaS层的数据服务。
来自互联网、汽车、零售、金融等多个行业在内的数百家标杆企业,均已率先通过火山引擎数智平台VeDI的产品,在多个数智化场景中获得实效。
“未来,我们还将在自身实践以及服务企业的过程中,持续升级技术、产品能力,以可自由耦合的产品形态,为企业提供更精准、更定制的服务体验。”罗旋介绍道。