聚焦Data+AI技术创新,字节跳动数据平台学术论文被两大数据库国际顶会ICDE'25/VLDB'25收录

数据库机器学习算法

picture.image

在数据爆发与AI技术加速融合的背景下,从智能分析到自动化决策,Data+AI正在持续释放商业潜能,为各领域创新注入新动力。

近日,字节跳动数据平台在数据库领域取得进一步成果,聚焦Data+AI中的参数调优、智能调度,两篇学术论文成功入选国际顶级学术会议!

picture.image

论文《 AQETuner: Reliable Query-level Configuration Tuning for Analytical Query Engines 》被收录于 VLDB'2025 Research Track,而《Learning from the Past: Adaptive Parallelism Tuning for Stream Processing Systems 》则入选 ICDE'2025 Research Track。

VLDB 和 ICDE 均为数据库领域的全球三大顶级学术会议成员,同时也是中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术圈中拥有极高的权威性和广泛的影响力。

其中, 字节跳动数据平台入选的VLDB 论文所提出的基于贝叶斯优化的数据库查询级参数调优系统AQETuner,借助基于神经过程的代理模型,能够针对诸如 ByteHouse、Presto 等分析型查询引擎,实现精准的查询级参数优化。

该系统运用参数 - 计划联合编码器,精准捕捉可调参数与查询计划之间错综复杂的相互关系,并巧妙利用门控网络,深入挖掘神经过程中查询性能与可靠性之间的潜在联系,最终达成了高效且精确的优化效果。

经实验验证,与当下最优的参数调优方法相比,AQETuner 最多可降低 23.7% 的查询延迟,同时最大程度降低 51.2% 的查询失败率,显著提升了调优效率与可靠性。未来,相关研究成果将通过火山引擎 ByteHouse 对外开放。

另一篇 ICDE 论文提出了一种面向分布式流处理系统的自适应并行度调优方案。该方案通过搭建预训练与微调框架,运用基于图编辑距离的 DAG 聚类技术,以及采用结合了单调约束的 GNN 编码器构建算子级别瓶颈预测模型,成功实现了高效且精准的并行度优化。

实验数据表明,在公司内部的 Flink 机群上,该方法最多可减少 29.6% 的重配置次数,同时将总并行度降低至原有的 69.2%,有效平衡了资源利用与性能表现,特别适用于多样化的动态工作负载场景。

值得关注的是,该功能相关的 Flink AutoScaling 系统已在国内大规模上线应用,覆盖资源总量高达 200 多万核,成功节约资源 30 万多核。此次论文成果将为该系统的进一步优化与拓展提供有力支撑。

此前,字节跳动数据平台已在数据库三大顶会之一的 SIGMOD'24 上发表了论文《 ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation 》,尝试解决数据库中的经典难题 —— 基数估计方法。

传统的基数估计技术存在误差大、效率低的问题,为此,团队提出 ByteCard 框架,实现了学习型基数估计模型在数据仓库系统 ByteHouse 的高效集成。在实际应用中,ByteCard 显著提升了 ByteHouse 的查询性能,减少了查询中的 I/O 成本和哈希表重调整频率。

实验显示,在多个数据集上,它最多可降低 99% 分位数的查询延迟 30%,为 ByteHouse 集成更多机器学习组件提供了支撑,也为数据库领域的技术发展贡献了创新思路。

从参数调优到流处理优化,字节跳动数据平台的技术研究未来将逐步转化为企业级解决方案,通过火山引擎赋能各行各业。

👏 Data+AI 推荐阅读:

picture.image

picture.image

picture.image

picture.image 字节跳动数据平台招人中,点击阅读原文了解

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生数据库 veDB 核心技术剖析与展望
veDB 是一款分布式数据库,采用了云原生计算存储分离架构。本次演讲将为大家介绍火山引擎这款云原生数据库的核心技术原理,并对未来进行展望。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论