stateless emr 支持计算存储分离;但 clickhouse、doris 都是存储计算一体的olap数据库;所以存储计算分离和不分离的利弊有哪些,选型时有什么关键的考量吗
存算分离是目前大数据架构演进的趋势,也是 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:
Stateless 通过将状态与具体集群剥离实现轻量化的集群交付,让用户可以按需创建集群、运行作业,并在不需要时释放集群,无需担心数据、状态的丢失。这里的状态也包含用户的业务数据,所以存算分离是支撑 EMR Stateless 的基础。不过我们也能够看到存算分离伴随的一些劣势,尤其是数据跨网络传输所带来的网络开销、延迟,直接影响了作业分析的速度,不过好在近几年网络质量有了质的飞跃,同时 EMR 也引入了一些缓存加速技术来尽量减少热数据在网络中传输的频率,在利用存算分离带来的优势的同时也尽可能屏蔽其劣势。
此外,像您提到的 CK、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。
存算分离是目前大数据架构演进的趋势,也是 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:
Stateless 通过将状态与具体集群剥离实现轻量化的集群交付,让用户可以按需创建集群、运行作业,并在不需要时释放集群,无需担心数据、状态的丢失。这里的状态也包含用户的业务数据,所以存算分离是支撑 EMR Stateless 的基础。不过我们也能够看到存算分离伴随的一些劣势,尤其是数据跨网络传输所带来的网络开销、延迟,直接影响了作业分析的速度,不过好在近几年网络质量有了质的飞跃,同时 EMR 也引入了一些缓存加速技术来尽量减少热数据在网络中传输的频率,在利用存算分离带来的优势的同时也尽可能屏蔽其劣势。
此外,像您提到的 CK、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。
存算分离是目前大数据架构演进的趋势,也是火山引擎 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:
此外,像您提到的 ClickHouse、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。