stateless emr 支持计算存储分离;但 clickhouse、doris 都是存储计算一体的olap数据库;所以存储计算分离和不分离的利弊有哪些,选型时有什么关键的考量吗

stateless emr 支持计算存储分离;但 clickhouse、doris 都是存储计算一体的olap数据库;所以存储计算分离和不分离的利弊有哪些,选型时有什么关键的考量吗

903
0
0
avatar

存算分离是目前大数据架构演进的趋势,也是 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:

  1. 提升资源利用率,扩缩容更加灵活:存算分离场景下存储和计算资源是解耦的,存储资源层面按量付费,计算资源层面可以按需横向扩缩容。
  2. 提升系统容错性,降低运维成本:存算分离后数据存储由专门的系统承载,避免耦合场景下节点故障导致的数据损坏或丢失,提升系统持续服务的能力。
  3. 更加灵活的应对不同分析场景:通过将计算层与存储层解耦,同一份数据可以面向不同的分析场景、引擎,极大提升数据在使用层面的灵活性。
  4. 支撑数据分层存储,降低存储成本:存算分离之后,可以进一步对数据按照冷热进行分层存储、分层计费,进一步降低数据存储的成本。

Stateless 通过将状态与具体集群剥离实现轻量化的集群交付,让用户可以按需创建集群、运行作业,并在不需要时释放集群,无需担心数据、状态的丢失。这里的状态也包含用户的业务数据,所以存算分离是支撑 EMR Stateless 的基础。不过我们也能够看到存算分离伴随的一些劣势,尤其是数据跨网络传输所带来的网络开销、延迟,直接影响了作业分析的速度,不过好在近几年网络质量有了质的飞跃,同时 EMR 也引入了一些缓存加速技术来尽量减少热数据在网络中传输的频率,在利用存算分离带来的优势的同时也尽可能屏蔽其劣势。

此外,像您提到的 CK、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。

0
0评论
0
avatar

存算分离是目前大数据架构演进的趋势,也是 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:

  1. 提升资源利用率,扩缩容更加灵活:存算分离场景下存储和计算资源是解耦的,存储资源层面按量付费,计算资源层面可以按需横向扩缩容。
  2. 提升系统容错性,降低运维成本:存算分离后数据存储由专门的系统承载,避免耦合场景下节点故障导致的数据损坏或丢失,提升系统持续服务的能力。
  3. 更加灵活的应对不同分析场景:通过将计算层与存储层解耦,同一份数据可以面向不同的分析场景、引擎,极大提升数据在使用层面的灵活性。
  4. 支撑数据分层存储,降低存储成本:存算分离之后,可以进一步对数据按照冷热进行分层存储、分层计费,进一步降低数据存储的成本。

Stateless 通过将状态与具体集群剥离实现轻量化的集群交付,让用户可以按需创建集群、运行作业,并在不需要时释放集群,无需担心数据、状态的丢失。这里的状态也包含用户的业务数据,所以存算分离是支撑 EMR Stateless 的基础。不过我们也能够看到存算分离伴随的一些劣势,尤其是数据跨网络传输所带来的网络开销、延迟,直接影响了作业分析的速度,不过好在近几年网络质量有了质的飞跃,同时 EMR 也引入了一些缓存加速技术来尽量减少热数据在网络中传输的频率,在利用存算分离带来的优势的同时也尽可能屏蔽其劣势。

此外,像您提到的 CK、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。

0
0评论
0
avatar

存算分离是目前大数据架构演进的趋势,也是火山引擎 EMR 提供的核心基础能力,能够带来的优势主要包括以下几个方面:

  1. 提升资源利用率,扩缩容更加灵活:存算分离场景下存储和计算资源是解耦的,存储资源层面按量付费,计算资源层面可以按需横向扩缩容。
  2. 提升系统容错性,降低运维成本:存算分离后数据存储由专门的系统承载,避免耦合场景下节点故障导致的数据损坏或丢失,提升系统持续服务的能力。
  3. 更加灵活的应对不同分析场景:通过将计算层与存储层解耦,同一份数据可以面向不同的分析场景、引擎,极大提升数据在使用层面的灵活性。
  4. 支撑数据分层存储,降低存储成本:存算分离之后,可以进一步对数据按照冷热进行分层存储、分层计费,进一步降低数据存储的成本。 Stateless 通过将状态与具体集群剥离实现轻量化的集群交付,让用户可以按需创建集群、运行作业,并在不需要时释放集群,无需担心数据、状态的丢失。这里的状态也包含用户的业务数据,所以存算分离是支撑 EMR Stateless 的基础。不过我们也能够看到存算分离伴随的一些劣势,尤其是数据跨网络传输所带来的网络开销、延迟,直接影响了作业分析的速度,不过好在近几年网络质量有了质的飞跃,同时 EMR 也引入了一些缓存加速技术来尽量减少热数据在网络中传输的频率,在利用存算分离带来的优势的同时也尽可能屏蔽其劣势。

此外,像您提到的 ClickHouse、Doris 这些偏实时的分析型数据库,目前主要还是存算一体的架构,这也是其具备高性能读写能力的基础。不过随着数据量的增长,存储层面的开销也是其绕不开的话题,所以也在朝着存算分离的方向探索和演进,追求性能和成本的平衡。

1
0评论
0