火山引擎数据中台产品双月刊涵盖六大数据中台产品的功能迭代、平台最新活动、技术干货文章等多个有趣、有料的模块内容。
季度更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~
接下来让我们来看看 Q3 季度数据中台产品有什么大事件吧~
产品一句话介绍
火山引擎大数据研发治理套件DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,提升数据研发效率、降低管理成本。搭配 EMR/LAS 大数据存储计算引擎,加速企业数据中台及湖仓一体平台建设,为企业数字化转型提供数据支撑。(公众号后台回复数字“2”了解更多产品信息。 )
火山引擎全域数据集成DataSail
简单、可靠、弹性伸缩的EL(T)数据采集和同步引擎,依托抖音集团万亿级数据的接入和处理能力支持数据实时接收、处理、分发全流程的解决方案,批流一体架构支持30+种异构数据源及企业级CDC解决方案,具备复杂网络环境下高效稳定的离线、实时的全量增量数据集成能力。(公众号后台回复数字“16”了解更多产品信息。 )
火山引擎云原生数据仓库ByteHouse
云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。(公众号后台回复数字“6”了解更多产品信息。 )
火山引擎湖仓一体分析服务LAS
面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。(公众号后台回复数字“4”了解更多产品信息。 )
火山引擎云原生开源大数据E-MapReduce
云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、Doris、StarRocks、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻松完成企业大数据平台的建设,降低运维门槛,快速形成大数据分析能力。(公众号后台回复数字“3”了解更多产品信息。 )
火山引擎流式计算Flink版
流式计算 Flink版脱胎于字节跳动最佳实践的全托管云原生实时计算平台。全面兼容开源Flink,具备开箱即用、全局可观测、Serverless极致资源弹性 、低TCO、高SLA保障等特性,一套代码轻松搞定流批一体。(公众号后台回复数字“18”了解更多产品信息。 )
产品迭代一览
大数据研发治理套件 DataLeap
- 【公有云-功能迭代更新】
【Serverless Presto 引擎适配】
功能简介
DataLeap 新增 EMR Serverless Presto 引擎适配能力,项目能与该引擎绑定,用户可在临时查询模块用「EMR Serverless PrestoSQL」构建交互式分析查询以提速。Serverless Presto 执行速度有优势,适用于 Adhoc 查询、BI 分析、轻量级 ETL 数据分析工作,支持多种任务类型。
应用场景
- Adhoc 即席查询:以往用户在 DataLeap 上进行 EMR Hive 查询时性能很低,不支持即席查询场景,现在Serverless Presto 适合进行即席查询,能够快速响应用户数据查询需求,适用于需要即时数据分析的场合。
- BI 分析:由于其具备高性能的查询能力,满足日常业务灵活多变的复杂查数需求,当前在 DataLeap 上借助 Serverless Presto 能够在决策分析领域发挥显著作用。它甚至可以媲美优秀的商业化 BI 引擎,助力用户采用更直接的方式,更快速获取数据分析结论,准确为业务决策提供有利依据。
- 轻量级 ETL:Serverless Presto 可以处理数据转换和加载的任务,特别是在数据量不是特别庞大时更为有效。比如 Spark SQL 处理完的 Hive 表,借助 Serverless Presto 可有效解决 Hive 表查询慢的问题。
- 云原生数据湖分析:Serverless Presto 可以集成在云原生数据湖中,进行高效的数据湖分析,优化数据源的访问和查询。
特性简介
- 查询性能提升:用户无需关注底层的服务器管理,无论从即席查询到复杂的数据分析任务,都可以在 DataLeap 上快速提升查询性能,为查询分析服务带来极致用户体验。
- 跨任务兼容:在 DataLeap 上借助 Serverless Presto
使用说明:说明文档
【准实时调度 】
功能简介
DataLeap 增强 EMR Serverless StarRocks 引擎适配能力,新增了准实时调度,调度执行频率支持 1分钟、2分钟、3分钟、4分钟、5分钟级别,有效提升了数据时效性,满足不同业务场景下数据决策需求。
应用场景
- 金融 安全风控:在金融行业领域,准实时数据分析可以帮助实现风险实时监控、客户行为洞察、市场趋势预测等功能,提供快速的数据处理和分析,帮助金融机构更准确地评估风险,制定合适的投资策略。
- 智能制造:在制造企业中,通过EMR Serverless StarRocks可快速搭建OLAP准实时数仓,配合DataLeap调度处理和分析数据,帮助企业实时监控生产线状态,提高生产效率和产品质量。
- 营销推荐:在泛互电商推荐系统中,利用EMR Serverless StarRocks存储计算引擎,可以根据用户行为实时更新推荐模型,提供更准确的个性化产品推荐。
特性简介
- 提升决策效率:借助准实时调度能力,也就是通过频率最高可达 1 分钟的高频离线批处理,来实现更高的调度频率,从而达成近实时的能力。
- 解决任务积压:准实时任务数据量会随时变化,意味着在相同的机器资源、SQL写法的条件下,执行时间会变长,所以会有执行时长超过调度时间间隔的情况,产品会自动启动最后一次实例解决积压问题,实现数据更新。
- 降低资源成本:相较于Flink实时任务,准实时任务调度具有合适的性价比,Serverless StarRocks在准实时场景下具有学习门槛低、计算消耗成本低的优势,更主要是可以快速满足业务数据分析诉求。
使用说明: 说明文档
- 【私有化-功能迭代更新】
「指标查询API」功能正式上线
DataLeap 数据服务目前支持创建指标查询 API,把指标平台里的指标消费整合进数据服务平台,形成指标平台与数据服务的内部联动,能够更高效地将指标信息以 API 的形式分配给下游系统进行调用。这将有助于企业提升指标消费的灵活性、提高决策效率、优化业务流程和提升用户体验。
应用场景
- 营销活动触达:例如广告公司通常会建设BI看板实现数据可视化 , 除了 DataLeap 与 DataWind 能够无缝集成指标查询消费能力之外,其他支持 API 的第三方商业化 BI 工具或企业门户系统,如今也能够通过调用DataLeap数据服务模块中的指标查询 API,在其他BI工具的仪表盘和报告中使用预定义好的指标,从而轻松实现数据的可视化和分析。
- 进销存 商品管理:在供应链营销场景中,为配合营销活动的开展,高效满足用户需求,指标API能够让不同的业务系统(例如CRM、订单系统等)及时获取数据服务中的指标数据并进行消费调用,从而达成数据口径的统一,为业务决策提供支持。
- 智能推荐系统:数据指标如活跃用户、新增用户量、留存率等需要被用来评估模型效果,指导业务发展并支持多场景指标计算,通过提供统一的指标查询API接口。无论在开发和测试阶段,API形式均可直接用于计算样例管理、拓宽了指标消费渠道,企业可以通过指标管理系统进行全域指标的统一管理,保障项目高质量交付。
特性简介
- 开放性: 因为指标查询API是数据服务的能力,所以可以支持大规模查询QPS及API监控,从而支持大量的自动化流程,例如触发邮件通知、支撑交互式产品体验等。
- 高可用: 借助数据服务本身的特性 , 通过API获取应用的性能指标数据,如指标消费的总请求、平均响应时间、平均错误率等,以便进行性能分析和优化,实现应用性能监控
- 实时性:实时统计类指标可以基于数据存储,统一定义指标统计口径,实时查询和计算指标数据。
- 安全性:数据服务应用管理中密钥支持设置为动态 Token 形式,密钥类型为 OAuth2.0,调用 API 时,需获取动态Token后,再进行调用,提升API 查询的安全性和灵活性。
全域数据集成DataSail
- 【公有云-功能迭代更新】
【实时采集方案升级】
功能简介
本次重点对准实时同步,实时整库及实时分库分表能力持续增强,同时新增支持3种数据源组合通道。
应用场景
- 实时湖仓同步:现支持将整库多表数据快速入湖到ByteHouse。通过上下游的深度集成,端到端的数据时效性跃迁至秒级。
- 实时分库分表:通过一键配置解决方案,实现快速低成本的数据迁移。同时简化了方案配置流程,提高效率。
特性简介
- 数据源扩充:支持火山引擎Redis企业版、LarkSheet、 Iceberg数据源
- 自动 DDL /建表:支持 Doris、EMR StarRocks、ByteHouse CDW的自动建表能力
- 实时整库同步: 支持 ByteHouse CDW、ByteHouse CE类型,新增设置分区表、排序键和分区字段能力
- 实时分库分表:支持 MySQL2Hudi 通道任务
使用说明: 说明文档
- 【私有化-功能迭代更新】
【实时整库解决方案升级】
功能简介
实时整库解决方案,支持全增量一体化同步,先使用离线任务同步全量历史数据,再通过实时任务同步增量数据。本次升级对OceanBase2ByteHouse 企业版做了定向优化,同时新增了LarkSheet数据源。
应用场景
- 企业需要利用准实时数仓监控和分析业务数据,如订单、交易、用户行为等,及时发现业务异常和趋势,为决策提供支持,所以对数据时效性要求很高。而业务监控与分析需要多形态的数据,这些数据源量大,分散在各个业务库中,除了传统的全增量一体直连以外,现使用中间Kafka缓存增量数据,适用于数据量大和稳定性要求高的业务,满足交互式查询决策需求。
特性简介
- 数据源扩充:新增LarkSheet数据源,支持LarkSheet2LAS、LarkSheet2ByteHouse 企业版等通道任务,提升飞书电子表格和多维表格的数据分析与同步效率。
- 实时整库同步能力升级: 在实时整库同步到 ByteHouse 企业版的场景下,增加了Kafka 数据缓存机制,提升数据采集稳定性。同时支持ByteHouse 企业版 ebezium Json/OGG Json的订阅格式,增强可读性与可操作性。
云原生 数据仓库ByteHouse
【 ByteHouse 云数仓版】
「异步物化视图」功能上线
ByteHouse 新增了异步物化视图功能,通过预先计算和存储查询结果来提高查询性能,可以更好的支持多表关联的场景,减少对于数据导入影响,减少资源消耗。
应用场景
异步物化视图能够在需要进行多表关联的数据处理与数据查询分析的场景中,发挥重要作用,不仅能提高查询性能,还能降低资源成本,优化数据存储。典型应用场景如下:
- 营销场景-人群圈选: 圈选目标人群需要从大量的用户标签中进行交叉分析筛选出符合特定条件的人群,异步物化视图通过预计算和存储这些查询结果,对基表执行复杂查询时,可以直接复用预计算结果,避免重复计算,降低查询成本。
- 运营场景-行为分析:通常行为分析会需要用到多个大表进行复杂聚合计算,异步物化视图有助于简化、分解复杂查询,可以显著提高查询性能。
特性简介
ByteHouse 异步物化视图对比开源ClickHouse,性能更优~
当前开源ClickHouse的物化视图是同步视图,对于使用场景有如下限制:
- 影响基表数据导入性能
- 支持单表,无法支持多表关联
ByteHouse 异步物化视图优势包括:
- 复杂查询加速: 异步物化视图存储了基于基表特定查询语句的预计算结果。对基表执行复杂查询时,可以直接复用预计算结果,避免重复计算,进而提高查询性能。查询的频率越高或查询语句越复杂,性能增益就会越很明显。
- 数据加工:通过异步物化视图可以对底层数据进行ELT做轻量级的数据加工,直接在ClickHouse引擎内容实现数据的转化,减少在不同的数据处理系统切换,降低使用门槛和维护成本。
视图类型 | 单表聚合 | 多表关联 | 查询改写 | 刷新策略 | 数据导入影响 |
---|---|---|---|---|---|
★异步物化视图 | 是 | 是 | 是 | 异步刷新 / 手动刷新 | 无 |
同步物化视图 | 是 | 否 | 是 | 导入同步刷新 | 有 |
使用说明: 帮助文档
「预处理查询」功能正式上线
预处理查询(PreparedStatement)是ByteHouse提供的提前生成 SQL 执行计划的新能力。通过预先准备好查询语句的结构,数据库可以更好地优化执行过程,从而节省执行时间。对于频繁执行的点查操作,预处理查询能够显著地提升性能。
应用场景
- 游戏日志检索: 在游戏行业,当大规模用户同时进行搜索等操作时,系统需要快速响应。预处理查询能通过预先创建编辑预查询语句来节省执行时间,缓解频繁对日志数据进行实时查询带来的负载压力。
- 电商信息检索: 在电商平台的用户搜索场景中,预处理查询可以在用户发起查询之前,预先对可能的热门商品信息查询进行处理和准备,从而大大减少了查询的响应时间。
特性简介
- 性能提升:由于数据已经过预处理,当用户提交查询时,系统可以迅速从预处理的结果中获取所需信息,大大减少了查询的响应时间,极大地提升了用户体验。
- 操作便捷:用户可直接通过产品页面的数据管理模块快速找到功能入口,支持预处理语句的快速创建、编辑、删除、执行等操作。
使用说明:帮助文档
云原生 开源大数据平台 E-MapReduce
【 EMR on VKE 产品形态 】
功能简介
EMR on VKE ,即火山引擎 EMR 基于 VKE( K8S )的半托管模式,资源引擎从 YARN 升级为 K8S 统一调度,满足用户离线、在线、AI 等不同 Workload 的潮汐混部运行,最大程度提升资源利用率,同时具备半托管的灵活性。 (目前白名单发布,12月1日正式GA )
应用场景
多模态 数据预处理
- EMR 增强 Ray 引擎特性,通过 Ray Autoscale结合节点弹性伸缩和弹性容器实例(VCI)可以实现任务级别的弹性伸缩,减少固定资源消耗,大幅降低资源成本。
AI /离线/在线 混合部署
- 使用EMR on VKE,可以将离线大数据和在线业务系统共享一套VKE集群,底层资源共享,达到分时复用,提升资源整体利用率,达到降本目的。一套基础设施、一套运维体系,大幅降低运维成本。可以借助弹性伸缩、动态超分等能力,进一步提升资源利用率,减少常驻资源。
多模态 数据湖
- EMR on VKE支持使用弹性容器实例(VCI)调度Spark等作业,以低成本的方式解决资源消耗洪峰问题。
- EMR on VKE采用存算分离架构,实现一份数据多个计算引擎共享,打破数据孤岛。EMR Proton SDK兼容HDFS语义的前提下,相比S3A有大幅性能和稳定性提升,支持客户获得接近存算一体性能的同时,存储成本可以大幅降低。
特性简介
特性一:计算引擎加速
- EMR Spark 是基于C++ 实现的端到端的向量化执行引擎,比友商使用开源产品性能提升了2-5倍。
特性二:存储引擎加速
- 数据湖和多模态数据预处理用户使用对象存储 TOS 作为数据存储标准解决方案,会面临文件语义到对象语义的难点、对象存储带宽限制等痛点。EMR on VKE 形态下除了以 Proton SDK 和 Proton 加速模块解决上述问题,也通过 Pyproton 满足 AI 用户使用 Python 语言获得以上解决方案。
特性三:极致降本增效
- 弹性容器实例( VCI ): 支持使用弹性容器调度Spark、Ray等作业,无需固定资源常驻。
- 避免资源碎片: 借助云原生动态资源超分(Katalyst)能力,大幅提升资源利用率,避免资源碎片导致的成本浪费。
- 离在线****混合部署 : 支持AI、离线、在线业务混合部署,提升整体基础设施资源利用率,避免资源孤岛。统一底层基础设施,降低运维复杂度。
特性四:大规模集群管理
- 故障容错和自愈:考虑容器形态大部分用户是资源混部场景,VKE集群先于EMR存在,用户提供的VKE集群的环境无法实现标准化。EMR提供集群创建时和运行中底层基础设施的容错能力,集群的创建和弹性扩容成功率达到 99.9%+,单集群管理规模可达2000节点。
- 易运维:提供健康巡检、作业管理、队列管理、资源管理等高级运维功能,后续 99% 以上的操作都可以在EMR控制台上完成,大幅降低初创AI团队(算法工程师为主)的使用门槛。
使用说明:帮助文档
【 EMR Serverless Spark】
功能简介
火山引擎 EMR Serverless Spark 提供开箱即用的 Spark 引擎服务,完全兼容开源语法,满足大规模离线/准实时数仓(湖)建设,支撑百亿级别数据计算场景,兼容开源,性能较社区有 2 倍+ 提升。能力对标国内各厂商的EMR Serverless Spark、MaxCompute、DLI、DLC 等产品,对标国外 AWS EMR Serverless Spark、Athena、Big Query、DataPorc 等产品。 (目前白名单发布,12月1日正式GA )
应用场景
场景一:MaxCompute 迁移场景
闭源系统在性能、新特性方面都落后于社区,随着用户规模的扩大,产品体验和服务水平都受到制约。开源大数据解决方案成本效益高,灵活性强,能够获得社区的广泛支持,预期在未来一段时间,越来越多的 MaxCompute 客户会寻求开源替代方案。
场景二:快速构建数据湖仓场景
传统的数据平台建设效率无法满足业务快速发展的需要,前期资源规划刻板,架构选型复杂,过度投入都可能导致项目建设走向不可控的局面。使用 Serverless + 存算分离 的架构能够满足数据存储,计算分析随时交付的敏捷场景。由于数据、元数据、计算引擎使用的服务都是 Serverless 化的,因此架构极易伸缩变化,客户不需要担忧IT成本的负担,只需要按需付费,规模随业务灵活扩展。探索性失败的业务造成的IT资源可以高效回收,整体来看是最具经济效益比的湖仓构建方案。
场景三:混合云组合场景
对于在 IDC 自建数据平台,使用开源技术栈自主开发运维的客户来说,短期内不具备上云或迁移的诉求,但IDC的算力规模迟早会成为或已经成为瓶颈,业务的潮汐波动会造成资源需求的频繁变化,如何保障数据分析需求的按时交付,成为摆在很多客户面前长期的问题。通过支持自定义镜像,用户可以在 EMR Serverless Spark 控制台根据 IDC 集群的版本和配置生成连接信息。当 IDC 内集群的资源达到饱和,无法承载分析需求时,IDC 可以将作业提交至云上的 Serverless 服务,待云上之行完成后将结果返回给 IDC,灵活的实现资源的弹性扩展和集群规模动态调整。由于兼容主流的大数据组件版本,业务客户对作业在哪里运行完全无感,保持和自建平台相同的体验。
特性简介
- 解耦湖仓存储: 推荐但不限于通过 TOS 提供数据湖存储能力,通过元数据中配置的文件路径实现对数据的透明访问。用户可以根据需要自主对存储在底层的数据进行操作,实现多源系统对同一份数据的操作和管理。
- 开放数据湖格式: 通过 LAS Catalog 提供统一元数据服务,除了支持Hive、还支持Hudi、Iceberg、Paimon等数据湖格式,方便用户构建开放数据湖。同时提供中心化的细粒度的权限管理能力,实现数据全生命周期的安全管控。
- 增强版开源引擎: 提供兼容开源的 Spark 3.5.x 引擎内核,基于字节实践的优秀 Feature 增强,支持多种任务类型,内置RSS服务对节点间数据交换进行提速,按需选择向量化执行引擎。
- 统一生态对接: EMR 统一对接 DataLeap、DataSail 等生态系统,提供一套 SDK、API 对外提供服务,用户体验一致,学习成本低,增加产品黏性。
使用说明:帮助文档
案例推荐 & 技术干货
【干货】OLAP向量检索能力实践:在“以图搜图”场景中的应用
【简介】 向量检索在OLAP引擎中早已得到应用,旨在提升非结构化数据的分析和检索能力。本文聚焦ByteHouse对高性能向量检索能力的建设思路,以“以图搜图”为例,详解OLAP的向量检索能力如何在具体场景中落地。查看全文>>
【干货】新一代云数仓必不可少的五大核心能力
【简介】 从数据库领域的发展历程来看,分析型数据库已有40多年的发展历史,与数据库基本同时代。从OLTP和OLAP的分支来看,分析型数据库支持了海量数据规模下的聚合性分析。数据量增加,对分析性能和数据规模增长提出了更高的要求,分布式计算技术应运而生,其最大特点是具备横向 scale out 能力、并行计算 MPP 能力以及 Shared-Nothing 能力。
近十年,随着云计算的发展,大家对分布式系统中存算一体、存算绑定、存算耦合的痛点也越来越关注。云原生技术很好地推动分布式系统的迭代,甚至是局部地区或局部领域的重构。从ByteHouse的应用实践中,本文将总结云数仓必不可少的五大核心能力。查看全文>>
【干货】大模型技术在数据资产方向的创新实践
【简介】 在数字化时代,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长,如何高效地找到并使用这些数据,成为了企业面临的一个重大挑战。火山引擎DataLeap团队通过创新性地将大模型技术应用于数据资产管理平台,开发出了名为“找数助手”的工具,旨在解决这一问题。本文将深入探讨“找数助手”的设计理念、技术实现以及在数据检索和使用中的应用实践。查看全文>>