「火山引擎」数智平台 VeDI 数据中台产品季刊 VOL.10

大数据数据库数据中台

picture.image

火山引擎数据中台产品双月刊涵盖「大数据研发治理套件 DataLeap」「云原生数据仓库 ByteHouse」「湖仓一体分析服务 LAS」「云原生开源大数据平台 E-MapReduce」四款数据中台产品的功能迭代、重点功能介绍、平台最新活动、技术干货文章等多个有趣、有料的模块内容。

季度更新,您可通过关注「字节跳动数据平台」官网公众号、添加小助手微信加入社群获取产品动态~

接下来让我们来看看 Q1 季度数据中台产品有什么大事件吧~

产品迭代一览

大数据研发治理套件 DataLeap

  • 【私有化-功能迭代更新】

      【数据加解密/脱敏】

    数据安全提供了AES加密、解密和哈希脱敏等安全策略。通过轻量级的可视化配置,可对原始数据中的敏感字段进行处理,降低数据敏感度并减少安全隐私风险。此外,安全策略还能与数据地图联动,标签化展示内容合法性,为信息安全提供强力保障。

    应用场景

    •    隐私信息保密:业务负责人为避免用户隐私信息泄露风险,使用加密防止敏感信息以明文形式存储,使用方必须使用解密的密钥才能读取和使用敏感内容。

    •    销售信息传递:根据销售部门数据共享交换业务,需要对用户/商户的身份、订单等数据采取不同的脱敏策略,以满足不同下游业务的数据使用需求。

    值班管理】

    值班管理可灵活地创建和管理值班人员,并在值班时间轴上进行排班。适用于运维排班、监控报警、会议提醒等多场景。在监控报警中,DataLeap 可根据值班表将报警信息发送给当天的值班人员,以便及时发现并处理相关任务问题。此外还提供 API能力,支持外部应用程序直接调用。

    应用场景

    • 自定义值班: 可灵活配置几天一轮转、几点切值班、灵活设置值班计划时间、根据时间和周期对值班人员进行排序轮值
    • 监控报警: 报警信息可以通过邮件、飞书、短信、电话和 Webhook 等方式发送提醒通知,同时附带注意的事项等说明,以督促值班人员及时进行处理。
  • 【公有云-功能迭代更新】

    安全标签】

    通过预置安全标签规则,并结合系统扫描来快速识别敏感数据,实行分类(用户、商户等业务分类)、分级(L1-L4保密级别)保护制度,确保数据资产持续处于有效保护和合法利用的状态。

    应用场景

    数据安全策略制定:数据(如医疗行业患者信息、医院就诊记录等)泄露,会存在严重隐私侵犯风险。借助数据安全分类分级进行严格的定义和保护,对敏感数据准识别和精细化管控,可依据法律法规和安全级别进行事故处理。DataLeap 的「安全标签」能力不仅支持自定义安全标签,而且能够自动基于安全规则进行扫描识别、安全打标等操作,以满足不同安全合规下的差异性要求。

    了解更多>>

    工作流任务】

    在一个工作流任务下,采用可视化拖拉拽的方式,用户可自由组合不同引擎任务的依赖关系,轻松实现跨引擎、跨任务类型的复杂调度。

    应用场景

    • 情感分析自然语言处理(NLP)-离线数仓开发:先用Shell扫描TOS新增文件上传到HDFS,再用Pythoh任务读取多文件汇总,同步进行分词处理和数据挖掘,之后用EMR-HSQL任务进行逻辑加工并归档到Hive,最终用EMR-报表任务将数据以邮件方式发给各渠道负责人。

    • 广告投放效果跟踪-准实时分析查询:广告主基于EMR StarRocks构建分钟级准实时分析。使用DataSail对订单交易系统中的MySQL增量数据做预处理,以实时方式同步到EMR StarRocks引擎,使用EMR StarRocks SQL任务实现多维、实时、高并发的OLAP数据分析。 了解更多>>

    数据集成解决方案升级】

    数据源支持Redis、OSS、ByteHouse CE(企业版) 可视化离线读、整库及分库分表能力支持 VeDB、Mongo 通道,提供ByteHouse CDW(云数仓版)在同步过程中新增列、修改列,无代码快速构建数据迁移能力

    应用场景

    • IDC上云/他云搬站: 通过一键配置解决方案,实现快速低成本的数据迁移。批流一体架构支持约37+异构数据源及企业级CDC解决方案。

    • 实时入湖仓解决方案,时效性和易用性更高,无需编写SQL/代码等,就能将整库多表数据快速入湖到ByteHouse/EMR StarRocks等,通过上下游的深度集成,端到端的数据时效性跃迁至秒级。 了解更多>>

云原生数据仓库 ByteHouse

ByteHouse 云数仓版】

【MySQL 兼容性增强

  • 增加了对 MySQL 5.7 和 MySQL 8.0 常用功能及语法的兼容,可以实现与 MySQL 客户端应用程序和工具的无缝集成。这将使用户能够使用熟悉的 MySQL 协议与 ByteHouse 进行交互,并利用 MySQL 生态系统的功能。

了解更多>>

【租户管理 】

通过租户级网络域名,保护用户网络安全,实现多租户数据隔离、定制化访问控制、应对安全漏洞和攻击

  • 新增 租户管理,支持租户级基础资源管理,支持用户退订存储;
  • 支持用户绑定VPC/EIP构建租户级私网 和公网域名;提供租户级连接URL;
  • 支持默认参数配置;

了解更多>>

ByteHouse 企业版】

向量检索

向量是一种常见的非结构化数据表现形式。基于向量相似度的 KNN 计算广泛使用于图像搜索、多模态搜索、推荐、大模型推理等场景。ByteHouse 企业版已提供向量数据的管理与近似度查询功能,同时通过支持多种常见近近似最近邻搜索算法(Approximate Nearest Neighbor,ANN)算法来提升检索性能,以提供对非结构化数据的处理能力。

应用场景:

  • 基于大模型的向量检索场景:多模态搜索、LLM Prompt Store、知识库、以图搜图。
  • 向量检索+标量过滤场景:电商商品搜索、监控搜索。
  • 向量检索+聚合场景:文本搜索后聚合,向量检索后去重场景。

查看更多>>

湖仓一体分析服务 LAS

【私有化-功能迭代更新】

透明数据加密

  • 特性简介:LAS 支持透明数据加密,对数据文件进行写入读取过程加密和解密,保护用户数据隐私及安全合规;

  • 应用场景:传统数据库集群中,数据明文保存在行存/列存文件中,集群的维护人员或者恶意攻击者可在 OS 层面绕过数据库的权限控制机制或者窃取磁盘直接访问用户数据。LAS 通过集成密钥管理 KMS,实现数据的透明加密,保障用户数据安全。

【引擎能力提升支持小文件合并治理】

  • 特性简介:TMS & Bytelake 表 - 支持小文件合并治理
  • 应用场景:小文件暴增会导致 NameNode 节点内存暴增及增加文件读写时间,LAS 支持小文件合并治理后,系统将自动处理小文件问题,有效避免小文件暴增引起的读写性能问题及集群因内存暴增引起的性能问题。

云原生开源大数据平台 E-MapReduce

EMR 弹性预约实例 ESI】

EMR 弹性伸缩能力新增预约式弹性实例 ESI,客户可以根据业务计划提前预约实例,(预约成功后)价格远低于按量付费的价格,简化了运维工作,在计划内的弹性场景下,实现极致的降本增效。(灰度发布)

应用场景

  • 可预见的一次性资源需求高峰: 短时间内可预见的、会承接大量访问的业务场景,该场景必须在特定时间段内为关键业务保留资源并保持高性能的访问体验。如:电商大促、视频直播、节假日票务高峰等
  • 有规律的周期性业务高峰: 业务计算负载曲线有明显的波峰波谷情况,计划中可预见的、在每日/每周/每月固定时间段发生的计算业务,应用负载高峰集中在固定时间段,可以使用弹性预约实例保证资源稳定供应以及高峰期的访问体验。如:在线游戏、在线教育、大数据分析、渲染业务等的每日业务高峰、财务类服务每月对账高峰等

特性简介

  • 更高性价比的弹性预约实例: 是一种提前预约的按量计费实例,支持客户提前预约资源交付的时间段,届时系统自动进行弹性扩展,客户以低价享有按量付费的弹性能力和资源稳定性,相较按量计费可以节省约 27% 的成本。

  • 较快的扩缩容速度: EMR 能在 3~4 分钟内完成弹性扩缩容,在行业内具有一定的优势,保障资源能被及时、充足地供应给业务。

  • 优雅的下线机制: EMR 弹性伸缩能力具有优雅的节点下线机制,系统优先识别和下线故障节点、无作业节点、低负载节点等,将缩容操作对运行中任务的影响降到最低,确保客户任务的平稳性、数据的完整性等,减少开发人员的运维管理工作。

多样的安全能力】

Kerberos 安全类型集群支持使用外部创建的 KDC 进行统一的身份管理和认证,外置 KDC 可以减少集群内资源消耗,与集群内服务相互独立、互不影响。(正式发布)

个性化的集群管理】

支持客户对集群自定义打标,进行标识、分类、查询、分账等,帮助客户轻松管理云资源。

灵活的资源使用】

按量付费集群支持节省停机模式,集群内计算资源(CPU、GPU和内存)会被回收并停止计费,降低相关费用、节约使用成本。

便捷的资源管理】

支持 EMR 集群及其底层资源作为一个整体,在火山项目之间移动,即移动 EMR 集群时会同步移动其所属资源,而且资源与项目的关系、权限、账单等也会随之变化,用户无需手动单台处理,大大提升了用户运维效率。

了解更多>>

重点功能课堂

大数据研发治理套件 DataLeap

「数据安全生命周期大盘」

火山引擎DataLeap的数据安全生命周期大盘参照了国家标准“数据安全能力成熟度模型”,以描述离线数据安全水平,辅助数据资产管理者开展全数据生命周期的体系化安全治理工作。安全大盘包括五个生命周期模块。目前,已提供「数据采集」和「数据共享」相关能力。

picture.image

数据安全功能解读:

  • 数据采集:可查看库管/库权限负责人资源,自动化元数据管理和敏感数据识别相关指标。

  • 数据存储:支持管理数据加密脱敏相关指标。

  • 数据处理:包含核心敏感数据风险告警、告警处置、异常数据处理等相关指标。

  • 数据共享:展示数据共享大盘情况,包含及时了解权限规模、资源授权风险等相关指标。

  • 数据销毁:提供数据删除操作等相关审计指标管理。

数据安全大盘特性说明:

  • 数据采集-敏感数据识别指标: 自动识别字段密级准确率,即呈现标记了保密级别(L1-L4)的字段占比情况,显示识别出标签的字段的覆盖率、以及识别标签被确认或忽略的占比,显示进行了标签达标的字段占比情况,并以按周、月维度查看和管理。
  • 数据授权风险: 每周和每月查看和管理资源主动授权权限数量和占比,以及人数超过 20 人用户组的权限数量。
  • 数据权限规模: 集中管理权限周期和规模,展示库、表、列资源的对应数量,并可以按周、月维度查看趋势图。

云原生数据仓库ByteHouse

「地理信息系统 GIS」

GIS(Geographic Information System,地理信息系统)是一种集成 软件、硬件和数据的计算机系统,用于采集、存储、分析和展示地理空间数据。GIS 结合了地图制作和数据库技术,使用户能够对地理位置相关的信息进行可视化、分析和解释,以支持决策制定、规划和管理。

目前 ByteHouse 已支持 Point、 LineString、Polygon 三种类型,在支持上述几何类型的基础上,我们还需要定义基本的空间函数操作,包括空间位置关系(相等,相交,覆盖,交叉等),距离计算,几何操作等。

地理信息系统 GIS(Geographic Information System) 模块包含点、线、面等几何类型,几何之间的空间位置关系以及周边生态,完整的 GIS 模块可参考下图:

picture.image

应用场景:

  • 位置洞察:通过多边形分析 / 点圆分析对目标区域的竞争对手信息、客户流量,用户画像分析进行洞察。
  • 基于位置的人群圈选:查看多边形区域内召回区域内人群明细,精准确定广告投放范围,提升转化率。
  • 拓店选址:通过区域内竞品、人流、交通、消费能力等因素,进行评估,展示热力图,提供开店参考。

查看更多>>

湖仓一体分析服务 LAS

LAS 运维中心

picture.image

【集群管理】

  • 统一集群状态监控、主机状态、组件状态概览
  • 计算/存储用量大盘/视图

【节点管理】

  • 节点扩容/缩容
  • 节点连接检测管理

【服务管理】

  • 参数配置和下发生效
  • 组件服务重启、滚动重启

picture.image 【管控平台】

  • 引导式集群创建
  • 界面化升级能力

【日志中心】

  • 集群、服务、组件日志的针对性展现与搜索
  • 操作日志管理

【告警管理】

  • 支持服务和作业级别的异常告警
  • 支持自定义告警规则

云原生开源大数据平台 E-MapReduce

EMR Serverless OLAP

EMR Serverless OLAP 是开源 StarRocks、Doris 在火山引擎上的全托管服务,属于新一代 MPP (Massively Parallel Processing) 数据库,提供高效的数据管理、处理和分析能力,无需管理基础设施,拥有极致弹性资源,真正做到开箱即用、免运维,让用户专注于业务本身,支撑秒级数据响应、复杂多维数据分析等场景。

了解更多>>

picture.image

  • OLAP 引擎:100%兼容开源,提供 Doris、StarRocks 全托管服务,覆盖即席查询、实时分析、实时统计、数据湖分析等领域。
  • 管控平台:支持实例创建、实例管理、诊断优化、弹性伸缩、用户管理等一站式运维能力。
  • 数据湖分析:EMR Serverless OLAP 不仅能分析本地存储的数据,也可以作为计算引擎直接分析数据湖中的数据,支持包括 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 等数据组织结构,支持 Parquet、ORC、CSV 等文件格式,也支持 HDFS、S3、TOS 等存储方式。
  • 实时分析:EMR Serverless OLAP 能很好地支持实时数据分析,并能对实时更新数据进行高效查询,StarRocks 还支持现代化物化视图,进一步加速查询。

应用场景

  • 实时入仓: 支持通过 DataSail、Flink 让数据实时入仓,实现数据秒级入仓,即时可见。通过便捷的数据入仓导入链路,支撑企业实时数据分析与决策。
  • 统一数仓构建: 一个平台满足统一的数据仓库建设需求,统一管理数据湖和数据仓库,可替换由 Spark、Hive、Kudu、Hbase、Phoenix 组成的复杂架构,最终通过一套系统解决多维分析、高并发查询、预计算、实时分析查询等场景,降低系统复杂度、多技术栈开发与维护成本。
  • 数据湖联邦查询 通过multi-catalog的方式联邦分析位于 LAS、Hive、Iceberg、Hudi 、Paimon 中的数据,在避免数据拷贝的前提下,带来数据湖查询性能的大幅提升。
  • 存算分离 StarRocks存算分离架构让数据存储与计算资源可分开管理弹性扩缩,存储资源可使用更便宜的对象存储系统TOS来存储海量数据,计算资源具备更好的弹性能力。为客户带来更好的资源利用,更高的性能,更好的扩展性,更好的可靠性,更好的灵活性和更好的成本效益。

案例推荐 & 技术干货

【案例】支持200万字长上下文,Kimi的背后都藏着哪些硬科技?

【简介】 月之暗面与火山引擎展开深度合作,进行联合技术创新,共同推进大型语言模型在垂直领域和通用场景的应用落地。查看全文>>

【干货】火山引擎发布 ByteHouse 性能白皮书,揭秘OLAP性能突破的关键技术

【简介】 日前,火山引擎正式发布《云原生数据仓库ByteHouse性能白皮书》,白皮书通过使用 SSB 100G、TPC-H 100G、TPC-DS 100G 数据集进行性能测试,展示出 ByteHouse 在查询效率方面的显著成果,并详细介绍ByteHouse在实时数仓、复杂查询等八大应用场景的高性能应用表现。下载白皮书>>

【干货】一文读懂字节跳动埋点数据治理

【简介】 埋点数据是用户在使用产品过程中产生的一系列行为日志,比如用户使用抖音过程中点击、滑动等操作。对了解用户、优化业务来说,用户行为日志是非常重要的数据来源。本篇文章将从治理背景、治理策略、治理经验回顾、规划与展望四个方面分享字节跳动埋点成本治理实践。查看全文>>

【干货】抖音集团数据治理经验:如何让计算治理自动化?

【简介】 本文旨在探讨字节跳动数据平台在处理计算治理过程中所面临的问题及其解决方案,并展示这些解决方案带来的实际收益。主要内容包括:探讨面临的痛点和挑战、提供自动化的解决方案、分析实践效果和收益、提出结论和未来展望。查看全文>>

【干货】OLAP 查询优化器:如何实现复杂查询和性能提升?

【简介】 本篇文章来源于火山引擎ByteHouse技术专家《ByteHouse查询优化器的设计与实现》的分享,从现状分析、设计思路、实现方案、高阶优化、优化效果五个部分,拆解ByteHouse查询优化器如何实现复杂查询和性能提升。查看全文>>

【干货】湖仓一体架构在火山引擎 LAS 的探索与实践

【简介】 火山引擎湖仓一体分析服务LAS(Lakehouse Analytics Service),是面向湖仓一体架构的 Serverless 数据处理分析服务,提供字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。

LAS服务是什么?LAS有哪些优化特性?本文将从基础概念、数据库内核特性优化、数据服务化、业务实践等角度全方位介绍湖仓一体架构在LAS的探索与实践。文末可下载本文对应的PPT材料。查看全文>>

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论