近日,在数据库领域全球三大顶级学术会议之一的 IEEE 国际数据工程大会(ICDE 2025)上,来自火山引擎ByteHouse团队递交的论文 “BlendHouse: A Cloud-Native Vector Database System in ByteHouse” 被收录于 Industry Track,并荣获 Best Industry and Application Paper Award 奖项。
论文名称:BlendHouse: A Cloud-Native Vector Database System in ByteHouse
论文作者:Zhaojie Niu, Xinhui Tian, Xindong Peng, Xing Chen
论文链接:https://www.computer.org/csdl/proceedings-article/icde/2025/360300e332/26FZCwVQeMU
ICDE 作为中国计算机学会(CCF)推荐的 A 类国际学术会议,在全球学术圈具有极高的权威性和广泛影响力,此次 ByteHouse 论文的入选,标志着其在向量检索技术领域的研究成果获得了国际顶尖学术平台的高度认可。
本次获奖论文提出了一种可广泛应用于存算分离数仓系统的向量检索设计。以ByteHouse 为实例,论文详细阐述了从存储结构、查询优化到查询执行的完整设计与实现思路,并构建了一套高性能向量检索框架 BlendHouse。
实验数据表明,该框架在读写性能上优于专用向量数据库以及现有的向量检索数据库扩展框架。
据介绍,高性能向量检索框架 BlendHouse具备以下三大特点:
第一,云原生向量检索框架。BlendHouse 是一个构建在通用存算分离架构的关系型数据库 ByteHouse 之上的云原生向量检索框架,首次论证了在云原生数据库上实现高性能向量检索的可行性,为云环境下的向量数据处理提供了新的技术路径。
第二,通用化设计理念。该框架秉持通用化设计,提供统一的向量检索与查询链路接入层,极大增强接入更多开源向量索引算法的灵活性,能够更好地适应不断发展的向量检索技术生态。
第三,混合查询深度优化。针对向量及标量混合查询,BlendHouse 制定了深度优化策略。通过独特的混合查询链路、定制化优化策略以及基于向量语义的分区策略,对向量检索查询的存储及计算进行了深度优化,显著提升了执行性能,满足了复杂业务场景下对向量检索与标量查询协同处理的高效需求。
ByteHouse 向量检索能力是其技术体系中的一大亮点,对于实现多模态数据(如文本与图像)间的语义对齐与相互检索至关重要。目前,该能力已广泛应用于图文匹配、商品搜索以及多模态大模型等领域。
例如,在某公司舆情监测—— “以图搜图” 场景中,面对全网不断扩大的监测范围和高达 12 亿的数据规模,ByteHouse 在有限资源下实现了秒级以下的搜索速度优化,展现出强大的向量检索性能。
在 AI 时代浪潮下,图片、音频、视频等非结构化数据呈爆发式增长,传统数据处理方式已难以满足企业需求。
而ByteHouse创新的向量检索技术,将为海量非结构化数据的高效处理提供重要支撑。未来,基于向量检索能力构建的数据处理方案,也将成为企业在数字化转型浪潮中破局的核心动能,推动行业在数据驱动道路上更进一步。
点击阅读原文,
领取《ByteHouse高性能向量检索技术指南V1.0》