CDP 私有云基础 7.1.7 有哪些新变化?

火山方舟向量数据库大模型

picture.image

随着CDP 私有云(PvC) Base 7.1.7 的发布,您可以期待新功能、增强的安全性和更好的平台性能,以帮助您的企业更快地获得洞察力和价值。我们了解将您的数据平台迁移到最新版本可能是一项复杂的任务,在 Cloudera,我们努力为所有客户简化此过程。

我们很高兴在此版本中分享这一点,我们使我们的 CDH 6.x 客户能够原地升级到 CDP PvC Base,而无需创建新集群。这完成了我们为传统平台上的所有客户进行就地升级的愿景,使 CDH 5/6 和 HDP 2/3 客户能够使用他们现有的硬件升级到 CDP PvC Base,而无需额外安装集群。就地升级可能是许多大型复杂环境的最合适途径,但我们有许多替代途径可让您的过渡满足您的需求。我们建议阅读从旧发行版到 CDP 的四个升级和迁移路径,以获得对其他选项的很好的总结。

有关 CDP PvC Base 7.1.7 中包含的内容的详细列表,请查看发布摘要。此版本的一些亮点包括:

  • Cloudera Manager 增强功能 可提高效率并 增强 平台安全性。该平台通过升级到 20 多个嵌入式的第三方lib库,大幅减少了现在开放的 CVE 的数量,从而提供更强的安全性和企业合规性。
  • 增强的分析功能 ,使用Hive on Tez 和 Impala 提供更快的 SQL 查询和 ETL,改进 Spark 以支持 Spark 3.1 和 NVidia RAPIDS 库,以及 HBase的性能改进。
  • Apache Ozone 增强功能 提供完整的高可用性,为客户提供企业级对象存储以及与 Hadoop 兼容文件系统和 S3 API 的兼容性。
  • SDX 增强功能 可改进平台和数据治理,包括以下显着功能:
  • Impala 行级过滤 用于在从表中读取时设置行的访问策略。这有助于简化 Impala 查询并为每个表提供行级安全性。我们稍后将在本博客中扩展此功能。
  • Atlas / Kafka 集成, 为 Kafa 生产者/消费者提供元数据收集,以便消费者可以在 Atlas UI 中管理、治理和监控 Kafka 元数据和元数据血缘。
  • 现在支持其他数据库、操作系统和开发环境以实现 更好的集成和兼容性 ,包括对 RHEL8 的支持。
  • 升级增强功能 为 CDH 版本 6.1.x、6.2.x 和 6.3.x 提供就地升级,以及记录回滚程序以帮助客户迁移到 CDP PvC Base,如博客介绍中所述。

以上列表只是我们希望引起您注意的 CDP PvC Base 7.1.7 版本的主要亮点。有关包含的所有功能的详细信息,请在此处查看官方发布摘要。

我们将使用本博客的其余部分来说明此版本中的三个功能如何改进平台 - Impala 行过滤、Atlas / Kafka 集成和 Ranger 审计过滤器和策略。

深入探讨 1:Impala 行过滤

由于 Apache Ranger 和 Apache Impala 的集成,我们现在能够将 Ranger Row Level Filtering 引入 Impala。除了列过滤和列掩码的功能支持之外,这意味着可以指定策略,根据用户的 id、角色、组或通过自定义表达式限制对表中行和列的访问;行过滤有效地添加了一个自动的“WHERE”子句。此功能对于需要存储和处理敏感或受监管信息的任何客户都非常有用,而以前的过滤只能通过一组复杂的视图和权限来实现。

例如,您可能希望根据特定区域组的成员资格限制销售数据,以限制市场敏感数据的整体可见性。在下面的示例中,我们已将 SELECT 授予多个销售组的成员。

picture.image

图 1:销售组 SELECT 访问

在此之上,我们可以指定一个行级过滤器,对于 sales_east、sales_west 和 sales_central 组的成员,它将应用基于区域列的谓词。

picture.image

图 2:每个销售组的行级过滤设置

现在,当这个查询在 Impala 中执行时,用户 scott(他是 sales_leadership 的成员;参见图 1 中的访问策略)可以看到所有行,但用户 test1(他是 sales_west 的成员;参见行过滤)图 2) 中的策略仅限于区域等于“West”的行。

picture.image

图 3:作为 'scott' 执行的查询返回所有区域详细信息

picture.image

图 4:作为“test1”执行的查询仅返回西部地区详细信息

由于 Ranger 将过滤传递给 Impala 的查询引擎本身,我们甚至可以利用性能增强,例如列统计、字典过滤和分区修剪。因此,通过使用行过滤提高了某些查询的性能。

由于行级过滤器可以使用任何有效的 WHERE 子句组成,因此可以使用更多基于 SQL 表达式的谓词,包括引用其他表。下面的示例显示了如何使用基于实际用户 ID 组成的过滤器来引用名为 user_lookups 的表。

picture.image

图 5:包含 SQL 表达式的行级过滤器

深入探讨 2:Atlas / Kafka 集成

Atlas – Kafka 集成由 Atlas Hook 提供,它从 Kafka 收集元数据并将其存储在 Atlas 中。一旦元数据在 Atlas 中,管理员现在可以使用 Atlas UI 全面管理、治理和监控 Kafka 元数据和数据血缘。这不需要对消费者或生产者进行更改。所有的审计都是在 Brokers 上进行的。

开启 Atlas Hook 需要在 Kafka 集群或数据上下文集群上部署 Atlas 服务。安装完成后,请转到 Cloudera Manager 中的 Kafka 服务,然后选择 Enable Auditing to Atlas 选项。这将向 Atlas 公开新创建的 Kafka 主题。对于现有主题,我们提供了一个名为 Kafka Import 的导入工具,可帮助手动将现有元数据导入 Atlas。

picture.image

图 6:Kafka 集群中的 Atlas Hook 配置

picture.image

图 7:Kafka ATlas Hook 馈送至 Atlas 实体和血统

Kafka主题atlas审计仅支持使用2.5及以上版本kafka的消费者。

picture.image

图 8:基于 Kafka Atlas Hook 元数据的数据沿袭

生产者和消费者的谱系是从使用血缘选项卡中的 Atlas 挂钩收集的元数据中显示的。

深入探讨 3:Ranger 审计过滤器和策略

Ranger 的进一步改进包括为 HDFS 超级用户添加审计事件以及定义审计过滤器以减少审计日志中潜在噪音量的方法。因此,可以更轻松地找到相关审计数据,并且减少了审计数据所需的存储量。

CDP Private Cloud Base 7.1.7 的新部署将包括一组默认的审核策略,可以通过单击服务旁边的“编辑”按钮(例如“cm_hdfs”、“cm_hbase”)通过 Ranger UI 查看。

picture.image

图 9:默认审核过滤器

默认过滤器排除 hdfs 用户的某些内部操作以及“getfileinfo”事件。这些操作是标准的 HDFS 内部操作,通常不会引起审计兴趣,但您可以根据需要重新启用审计。使用 UI,我们可以创建自己的策略,如下所示:

picture.image

图 10:HDFS 活动的自定义审计过滤器示例

在这个例子中,我们创建了过滤器来忽略某些已知的“托管”和/或暂存位置中的 HDFS 活动,并忽略来自服务(如 Hive 或 Impala)的 HDFS 活动,这些服务本身被配置为审核对 Ranger 自己的实际 SQL 查询。

总而言之,CDP Private Cloud Base 7.1.7 提供了改进的平台和分析功能,通过 SDX 提供更好的安全性和加密、更快的 SQL 查询和 ETL 与 Tez 和 Impala 上的 Hive,改进的 Spark 支持 Spark 3.1 和 NVidia RAPIDS API、HBase性能改进和企业级横向扩展对象存储与 Apache Ozone。有多种过渡到 CDP 私有云基础的途径,使转变变得前所未有的容易。要规划您的迁移,请参阅CDP 升级和迁移路径了解更多信息,或联系您的 Cloudera 客户团队讨论最佳方法。

其他资源

  • CDP 私有云基础 7.1.7 发布总结
  • 7.1.7 运行时的新增功能
  • Cloudera Manager 7.4.4 的新增功能
  • CDH 6 升级概述
  • 旅程顾问工具
  • 知识中心

原文作者:Vineeth Varughese

原文链接:https://blog.cloudera.com/whats-new-in-cdp-private-cloud-base-7-1-7/

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论