干货|Presto在字节跳动的内部实践与优化(二)

技术

picture.image

在字节跳动内部,Presto 主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分析等场景,日查询量接近100万条。本文是《Presto在字节跳动的内部实践与优化》系列文章的连载之二,由字节跳动 数据平台Presto团队 软件工程师常鹏飞在PrestoCon 2021大会上的分享整理,核心提炼了三个场景中的优化与实践。

第一部分可以点击阅读

picture.image

图注: PrestoCon 2021

LAS

Ad-hoc查询分析场景

2020年之前,大数据场景下的ad-hoc查询主要由Hive/SparkSQL来支撑。为了进一步优化查询性能,提高资源使用效率,从2020年开始,我们在 生产环境大规模使用Presto 。

与SparkSQL相比 ,Presto是一个常驻的MPP架构的SQL查询引擎,避免了Spark Context启动以及资源申请的开销,端到端延迟较低。

与Hive/Spark Thrift Server相比 ,Presto Coordinator更加成熟,轻量,稳定,同时Presto基于全内存的Shuffle模型可以有效的降低查询延迟。

为了做到用户查询无感迁移到Presto,我们做了大量的工作使得Presto在语法和语义层面兼容SparkSQL。

picture.image

在接入层方面

提供了SQL标准化改写功能。该功能可以将用户的SQL改写成Presto可以支持的SQL语法进行执行,做到了底层引擎对用户透明。

在函数支持方面 : 在Presto中支持了Hive UDF的执行,使得之前数据分析师积累下来的大量UDF可以在Presto中执行。该功能主要支持了在解析阶段可以加载Hive UDF和UDAF,并进行类型转换使其适配Presto类型体系,最终封装成Presto内置函数的形式进行执行。 目前 该功能部分已经贡献回了Presto社区。

picture.image

https://github.com/prestodb/presto/pull/16737

LAS

BI可视化分析场景

Presto在字节跳动应用的另一个比较重要的场景是BI可视化分析。

BI可视化分析提供了可视化交互的功能来进行数据分析,数据分析可以直观快速的进行数据分析并生成相应的分析图表,这给查询引擎提出了更高的要求。 在这一场景下,不仅,QPS大幅提高,同时还要求查询引擎能给出比较低的查询延迟。

为了应对这些挑战,我们做了一个比较重要的工作—— 在Presto中引入了物化视图

这种场景下,查询SQL往往都是由BI可视化平台根据固定的模版自动生成的,用户的可视化操作往往限于对查询过滤条件,聚合维度以及聚合指标的改变,适合物化视图的应用。

picture.image

在物化视图功能中,我们借鉴了很多传统数据库的经验,工作主要涉及三方面的工作:

物化视图的自动挖掘 ——主要根据用户查询的历史记录进行分析,统计不同数据的查询频率进行物化视图的自动推荐与创建。

物化视图的生命周期管理 ——主要维护分区级别物化视图的自动更新,删除。

物化视图的重写功能 ——基于已有的物化视图,对用户的query进行重写以减少查询执行的复杂度。

picture.image

LAS

近实时场景的查询分析

这是今年开始探索的一个场景,主要是为了降低数据链路的延迟,提升查询分析的时效性。

传统的基于ETL的数据链路中,业务数据和日志数据经由Kafka定期dump到HDFS,然后会有多个ETL任务对数据进行加工清理形成不同层级的Hive表用来进行查询分析。

这个链路中往往需要进行表数据的全量更新,任务比较重,与线上数据存在1天以上的数据延迟。

为了降低数据延迟,我们 引入了Hudi来进行数据的增量更新。

picture.image

在这个链路中,业务数据和日志数据经由Spark/Flink Streaming任务增量写入到Hudi表中,数据分析师可以直接查询这部分数据。目前,该链路可以做到分钟级别的数据延迟。

我们在Presto的优化工作主要是将Hudi表读取的功能从Hive Connector中提取出来成为了一个单独的Hudi Connector。

首先 , Hudi Connector针对Hudi表的结构特点更好地支持了 基于不同策略的分片调度算法 ,保证任务分配的合理性。

同时 , Hudi Connector优化了Hudi MOR表读取过程中的内存管理, 避免了Worker节点OOM,提升了集群稳定性

最后 , Hudi Connector的引入 降低了Hudi版本升级带来的工作量 ,可以更好的集成Hudi社区最新的功能。 这部分功能我们将会逐步贡献回社区。

picture.image

https://github.com/prestodb/presto/issues/17006

本文中介绍的字节跳动内部Presto功能优化,目前已通过火山引擎数据产品**“湖仓一体分析服务”** 向 外部企业输出

湖仓一体分析服务 LAS(Lakehouse Analytics Service) 是面向湖仓一体架构的Serverless数据处理分析服务,提供一站式的海量数据存储计算和交互分析能力,完全兼容 Spark、Presto、Flink 生态,帮助企业轻松完成数据价值洞察。

picture.image 点击 阅读原文 ,了解 湖仓一体分析服务LAS

更多相关产品

火山引擎大数据研发治理套件DataLeap

一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 后台回复数字“2”了解产品

火山引擎E-MapReduce

支持构建开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,提供 Hadoop、Spark、Hive、Flink 集成和管理,帮助用户轻松完成企业大数据平台的构建,降低运维门槛,快速形成大数据分析能力。 后台回复数字“3” 了解产品

  • End -

picture.image

22
0
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论