PB级数据秒级响应,ByteHouse是如何做到的? I 大数据文摘

本文是大数据文摘针对火山引擎数据产品ByteHouse的全面解读。

“敏捷是企业在移动互联网时代的重要竞争力。”

在12月2日举办的2021火山引擎云产品发布会上,字节跳动副总裁杨震原反复强调,字节跳动以敏捷为核心目标构建了云原生架构,支撑着公司业务快速创新、快速迭代。

的确,或许没有哪家公司比字节跳动更理解“敏捷”的意义。从央视春晚红包27天备战,到数据中心每天两万次的线上变更,这些“敏捷迭代”和创新背后,都离不开字节跳动的“云”以及一系列云产品。

以算法起家,字节在超大规模数据明细查询工具上积累了大量的实践经验,本次发布会上,字节跳动旗下的技术服务平台火山引擎发布的ByteHouse便是集大成者。

在讲ByteHouse的故事之前,我们先来看一组火山引擎发布的数据:作为目前国内几乎是ClickHouse最大集群的使用客户,字节内部的ClickHouse节点总台数达15,000台,单集群最大规模约2400台,管理数据量达到600Pb,日均查询量7500万。

这些数字量背后,勾勒的是一个超大规模数据分析服务领域的完美测试场景。

能在高速增长的业务现况下,通过技术优化让集群规模不再跟着业务增长而增长——是ByteHouse诞生时要解的问题。

从2018年着手,到2021年产品成熟,经过4年打磨和积累,字节将这些能力和实践全都集成到了ByteHouse的产品功能里。

如今,ByteHouse在字节内部,已支持80%的分析应用,包括广告业务、用户增长、A/B测试、算法模型优化等等

应对企业纷繁多样的需求,云原生是统一解法

凭借着设计优势、极致的速度性能与灵活可扩展性,ClickHouse在短时间内迅速蹿红。

但越来越多人在使用中发现,随着节点数的增加,只依赖于原生引擎必然会导致更多的人力介入和更高的运维成本。同时,传统存储和OLAP技术架构诞生了一系列复杂问题和挑战:无法支撑实时分析需求,资源利用率偏低,启动门槛和成本偏高等问题。

针对业界此类痛点,火山引擎提出了自己的解决方案——发力云原生,推出ByteHouse云数仓版。

在12月2日的火山引擎云产品发布会上,ByteHouse云数仓版重磅亮相。据悉,云数仓版已经实现了“四个零”的突破——零分析时延、零启动门槛、零运维成本和零厂商依赖

以此为契机,ByteHouse云数仓版也将作为字节跳动“敏捷开发”和“数据驱动”的对外输出,服务更多用户。

从架构层面入手,存算分离、PB级数据秒级响应

作为下一代OLAP引擎,ByteHouse云数仓版将目光对准了架构层面。通过采用存算分离的架构,将存储层和计算层解耦,以实现分别无缝扩展存储资源和计算资源,面对PB级海量数据也能高效分析,秒级响应。

f0b91e0f365cada1e7f2e5b49d6a8e26.png 图注:ByteHouse云数仓版产品架构

资源层面,ByteHouse云数仓版能做到更好的资源隔离。在新一代架构里,ByteHouse引入了多租户,这也是很多大型银行的刚性需求。针对不同的租户、不同的数据,可以分配不同的计算资源,一方面保证性能可控,另一方面可以清楚地看到不同部门和用户的数据与资源使用情况。

这背后是ByteHouse对于云原生的理解——产品云化仅仅是云市场化的一个表象,更深层的逻辑还是要落脚到云原生上,而云原生的本质便是降低用户的使用成本,和提升用户的使用体验,这其中包括了运维、付费和启动等一系列要素。

例如在启动门槛上,基于纯SaaS的OLAP体验和标准SQL,ByteHouse云数仓版能在无需关注部署配置的基础上,实现1分钟注册即可使用,方便业务用户自助分析,同时还支持按需启用计算组,并支持按照分钟级粒度即用即付,pay as you go。

cceda3aa739d28890171feca479e6f63.png 图注:ByteHouse接入流程

不断内外兼容,多角度支持数据安全

解决市面上现有的开源引擎多年来面临的问题,然后将这些经验和实践变成更好用的产品,这是火山引擎的第一步。但这还远远不止,ByteHouse技术负责人表示,他们接下来还想通过云原生的升级,逐步迭代和发展技术,从而帮助更多客户。

在云产品的兼容上,ByteHouse也表示会就上下游的数据产品和工具进行更进一步的兼容,比如Tableau等BI工具。针对私有云部署,ByteHouse也会根据金融等行业客户的需求,针对特有的环境做出兼容和适配,以复用客户的虚拟机、K8S和存储等资源。

在未来实现较好的兼容性后,怎样降低用户迁移业务的成本,这也是需要兼顾的。针对此,火山引擎也会为客户准备迁移方案,以降低客户的使用和迁移成本。

在近年来备受关注的数据安全问题上,ByteHouse也有一套自己的解决方案。

首先在用户访问层面,通过支持RBAC的用户访问方式,以更好地实现账号管理和权限控制。在更底层的层面上,文件层面也做了数据的加密,只有通过密钥的形式才能解码其中的一些文件。甚至也有客户会提出通信层面的要求,在分布式过程中存在不同的节点,通过SSL的协议来保障通信的安全。同时,在对接云厂商时,ByteHouse也会兼容云厂商本身提供的一些安全机制。

在12月2日的发布会上,火山引擎总经理谭待表示,为了建设开放的云生态,火山引擎的目标是在未来3年联合一千家合作伙伴、助力十万家客户实现数字化转型。

作为这一“万有计划”的重要组成部分,ByteHouse也在进行着充分的准备。

登录ByteHouse网站,了解更多产品技术细节,更可以申请产品体验

150
2
0
0
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论