喜讯！火山引擎 Flink、Spark 产品通过信通院可信大数据能力评测 - 文章 - 开发者社区

1月4日，在第五届“数据资产管理大会”上，中国信息通信研究院（中国信通院）公布了第十五批“可信大数据”产品能力评测结果。火山引擎流式计算 Flink 版和火山引擎批式计算 Spark 版凭借出色的基础能力、优秀的性能和稳定性及安全能力，分别通过分布式流处理平台基础能力评测、分布式批处理平台基础能力评测。

“可信大数据”产品能力评测旨在从基础能力、性能、稳定性、安全能力等维度对企业级大数据产品展开全方位的评测。自2014年以来，已成为我国大数据领域供给侧产品研发和需求侧采购选型的风向标。

流式计算 Flink 版

火山引擎流式计算 Flink 版依托于字节跳动在业内最大规模实时计算集群实践。火山引擎流式计算 Flink 版基于火山引擎容器服务（VKE/VCI），提供 Serverless 极致弹性，是开箱即用的全托管流式计算引擎。在100%兼容开源 Flink 的前提下，对产品功能也进行了企业级增强。此外，流式计算 Flink 版支持云中立模式，支持公有云、混合云及多云部署，全面贴合企业上云策略。

开发效率提升。 流式计算 Flink 版支持算子级别 Debug 输出、Queryable State、Temporal Table Function DDL，在开发效率上对开源版本 Flink 有显著提升。
可靠性提升。 流式计算 Flink 版针对单个 Task 进行 Checkpoint，提高了大并发下的 Checkpoint 成功率。单点任务恢复和节点黑名单机制功能，保障了对故障节点的快速响应，避免业务整体重启。

流式计算 Flink 版 - 产品功能架构

典型的多维实时场景支持

当前业界通常把 Flink 引擎定义为实时场景下的行业标准解决方案。同样，经过企业级功能增强后的火山引擎流式计算 Flink 版可以支持典型的多维实时场景。

实时 ETL 场景。提供丰富的内置 Connector，全面支持各种数据源及存储，企业级 SQL 能力高效构建实时数据处理平台；
实时监控场景。可提供状态管理等支持，内置 CEP 复杂事件处理模块，协助企业简化规则告警配置、降低监测平台维护成本；
实时数仓场景。支持海量数据实时处理和高并发实时入仓，协助企业建立数字化运营体系，为经营决策提供实时数据支持；
实时推荐场景。具备实时样本拼接能力，通过实时模型训练，创建实时增量模型，为客户提供更加精准和实时的推荐能力。

业内最大规模实时计算集群最佳实践

在字节跳动内部，抖音/头条/穿山甲等业务的广告推荐以及模型训练都深度使用了流式计算 Flink 版提供的流式计算引擎能力。

在流式训练方面，流式计算 Flink 版支持数据预处理、样本拼接、特征和稳定性指标的更新，为推荐效果的实时性和稳定性提供了有力保障。

在模型训练方面，流式计算 Flink 版支撑了推荐算法模型的核心训练任务，帮助模型及数据流快速迭代，提升模型稳定性，从而更好地协助业务团队助力广告主投放与媒体变现能力的增长。

批式计算 Spark 版

火山引擎批式计算 Spark 版支持了今日头条、抖音的超大规模批计算，提供面向深度学习场景的深度优化。在100%兼容 Apache Spark 的同时，实现企业级功能增强，配备火山引擎独有的 Cloud Shuffle Service 以保障 Spark 的作业性能和稳定性。批式计算 Spark 版提供租户级端到端安全隔离，具备基于火山引擎 VKE/VCI 的 Serverless 极致弹性扩展能力。批式计算 Spark 版同样支持支持公有云、混合云及多云部署。

批式计算 Spark 版 - 产品功能架构

覆盖流批一体和深度学习场景

流批一体数据处理场景。 火山引擎批式处理 Spark 可提供 Streaming/Batch 流批一体的数据处理能力，同时提供结构化、半结构化数据支持，支持丰富的上下游数据源与数据存储。
云原生数据湖场景。通过字节增强版 Iceberg 提供服务化的云原生数据湖平台：支持 Schema 校验、数据 Time-Travel、小文件自动优化、 ACID 事务性、Merge on Read 等功能。
深度学习场景。提供火山引擎自研通用深度学习框架和 Feature Store 服务，高效支持大规模分布式深度学习训练。端到端大数据 AI 一体化服务，提供一站式大数据+AI 解决方案。

字节跳动批式计算应用的最佳实践

目前字节跳动内部数据仓库都是基于 Spark 来构建，包括今日头条、抖音等业务的超大规模批计算作业。火山引擎批式计算 Spark 承载了字节跳动内部大部分离线 ETL 的海量数据处理任务，帮助内部用户高效构建离线数仓；同时也给 BI 分析师等业务方提供基于 Spark 的 Ad-Hoc 查询服务。

在穿山甲等相关业务的机器学习场景下，特征工程是机器学习领域中重要一环。火山引擎 Spark 承担了特征提取、离线调研、训练预处理等相关工作。

欢迎关注「字节跳动云原生计算」公众号，后台回复加入技术交流群，参与技术交流，了解更多信息！