什么是超大规模数据中心（Hyperscale Data Center）？ - 文章 - 开发者社区

超大规模数据中心（Hyperscale Data Center）是一种支持高容量数据处理、计算和存储服务的大型分布式计算中心。“超大规模” 一词既指数据中心的规模，也指其根据需求扩展容量的能力。国际数据公司（IDC）对超大规模数据中心的定义是：至少使用 5000 台服务器且占地面积达 10,000 平方英尺，尽管许多中心的实际规模要大得多。

picture.image

超大规模数据中心内部

单个超大规模数据中心可能包含数百英里的光纤电缆，用于连接数据存储、网络和计算所需的服务器。

数据中心互联（DCI）将超大规模数据中心相互连接，在安装过程中主动进行 DCI 测试是识别延迟和其他性能问题来源的关键。

通常集成软件定义网络（SDN）以及超大规模运营商自身的独特软硬件技术。

水平扩展（横向扩展）：通过扩展或添加更多硬件来实现数据中心容量增长。

垂直扩展（纵向扩展）：提升现有硬件的功率、速度或带宽。

目前全球已运营的超大规模数据中心超过 600 个，且这一数字持续增长。

优势与劣势

优势

超大规模数据中心使互联网内容提供商（ICP）、公共云部署和大数据存储解决方案能够快速部署新服务或扩展容量，从而高度响应客户需求。其庞大的规模还带来了以下优势：

减少停机时间：超大规模数据中心公司采用的内置冗余和持续监控措施可最大限度减少服务中断，并加速问题解决。

先进技术：一流的服务器和虚拟网络技术，以及 400G-800G 以太网 DCI 连接，实现超高速计算和数据传输、高可靠性和自动化自愈能力。

降低资本支出（CAPEX）：超大规模客户可通过租赁或订阅模式避免前期硬件和基础设施成本，并灵活扩展或缩减业务的计算需求。

劣势

资源短缺：超大规模数据中心架构依赖规模和可扩展性，土地、材料、劳动力和设备等资源短缺可能迅速阻碍其发展。在欠发达或偏远地区，由于可用劳动力、公用设施和道路较少，这些挑战更为严峻。

工期压缩：互联网内容、大数据存储和电信应用需求的增加压缩了超大规模数据中心的建设时间表。5G、物联网和智能边缘计算中心的加入进一步加剧了这一负担，可能导致部署前的性能和光纤测试被简化或省略，投产后出现更多问题。

供应链问题：定制化和早期采用新软硬件技术使超大规模数据中心的供应链问题复杂化，高产量和短交付周期给许多供应商带来挑战。

技术迭代压力：提升性能的技术快速演进也可能成为劣势。摩尔定律准确预测的技术进步速度迫使超大规模数据中心公司几乎持续更新软硬件基础设施，以避免过时。

关键考量因素

在解耦网络、虚拟网络和边缘计算时代，超大规模数据中心的配置选项不断增加。

以下基本约束影响其长期效率、可靠性和性能：

选址：规划时最重要的因素之一。新建超大规模数据中心面积超过 200 万平方英尺，需平衡房地产成本与位置优势及资源可用性。改进的自动化、机器学习和虚拟监控使具有天然冷却优势的偏远地区成为可行选项。

能源供应与成本：主要考量因素，部分数据中心峰值功率负载超过 100 兆瓦，仅冷却成本就占预算的一半。冗余电源和备用发电机确保超大规模数据中心追求的 “五个九”（99.999%）可靠性。企业还在寻求现场或附近的可再生能源，以减少超大规模数据中心电力消耗产生的二氧化碳排放。

安全问题：超大规模数据中心的规模放大了安全隐患。尽管主动安全系统是云计算的重要组成部分，但一次安全漏洞就可能泄露大量敏感客户数据。提高超大规模数据中心内部及之间的可见性以防范潜在安全威胁，是网络管理者和 IT 专业人员的重要目标。

架构特点

超大规模数据中心架构除了规模和容量外，与传统数据中心还有显著差异：

硬件层面：模块化、可配置的服务器与集中式（UPS）电源提高效率并减少维护；冷却系统也实现集中化，通过大型风扇或鼓风机优化整个设施的温度水平。

软件层面：容器化等虚拟化技术使应用程序能够在服务器或数据中心之间快速迁移。

网络测试需求：超大规模数据中心架构中的解耦和边缘计算使 400G 和 800G 以太网高速传输测试成为必需。

对比其他数据中心类型

企业数据中心：由所服务的公司拥有和运营，最初是支持特定公司场所的小型本地服务器机房。流量、存储和计算需求的持续增长推动许多企业数据中心迈向超大规模，体现在部署规模扩大、位置分散、设计节能以及更多使用自愈自动化技术。尽管如此，超大规模数据中心的网络光纤密度通常更高。

托管数据中心：随着超大规模数据中心解决方案不断满足客户对容量和性能的增长需求，托管模式变得越来越流行。该模式允许数据中心所有者将可用空间、电力和冷却容量租赁给其他组织，租户公司有时还会采购设计服务、IT 支持和硬件。这使小型公司能够享受超大规模数据中心的优势，同时避免从零开始的投资和时间成本。

设计要点

超大规模架构的规模和复杂性决定了其设计需采用自上而下的方法，内存、存储和计算能力的短期和长期需求贯穿硬件规格与配置、软件设计、设施规划和公用设施规划。还必须仔细考虑数据中心在园区中的角色及其他互联需求。

设计阶段的测试规划：可防止施工延误并减少部署后服务降级的情况，包括 MPO 原生光纤链路测试和认证、高速光传输网络（OTN）测试和以太网服务激活。早期引入可观测性工具和网络流量仿真可进一步保障持续性能。

picture.image

超大规模数据中心的功耗

互联网流量在不到十年的时间里增长了十倍，数据中心已消耗全球约 3% 的电力，因此超大规模数据中心的功耗受到更多关注：

技术优化：网络功能虚拟化减少有源电子设备的使用，人工智能智能控制服务器和光功率水平，显著提高了效率。

无人数据中心：借助 5G 支持的物联网监控，“无人数据中心”（熄灯数据中心）可部署在寒冷偏远地区（如冰岛），利用天然冷却优势。

可持续发展：随着能耗增加，从化石燃料转向太阳能、风能和水力发电等可再生能源将减少超大规模数据中心的整体环境影响。许多领先的云计算公司和数据中心所有者（包括谷歌、微软和亚马逊）已承诺在 2030 年前实现气候中和，其他公司则已达成这一目标。

picture.image

未来趋势

技术与需求驱动：未来十年及以后，新技术和应用将继续推动对测试和计算的需求。随着 5G 和物联网带来的商业化机会扩大，新进入者将开发进一步挑战密度、吞吐量和效率极限的应用。

分布化与边缘计算：数据中心规模扩大的同时将更加分散，小型边缘计算中心将算力靠近用户，减少延迟和大规模分布式拒绝服务（DDoS）攻击的影响。由谷歌、亚马逊（AWS）等超大规模领导者推动的分布式网络趋势意味着更多数据中心将通过庞大的光纤网络互联，各供应商通过扩展覆盖范围和基础来提升服务水平。

整合与绿色技术：数据中心整合和托管将继续推动互操作性并降低进入门槛，这些整合的超大规模数据中心还将充分采用液冷、太阳能屋顶、风力涡轮机等绿色技术，以及先进的人工智能优化冷却和功耗。

全球化扩张：随着建设热潮持续，亚洲、欧洲、南美和非洲将出现更多新的数据中心，连接这些不同地区（甚至新数据中心）的大型新海底电缆（海底 DCI）将部署在海底。

测试解决方案（VIAVI）

超大规模数据中心在规模、复杂性和密度上的增长意味着施工时间表加快、DCI 接近满负荷运行，光纤连接的速度和数量增加也使可见性面临挑战。VIAVI 为传统数据中心开发的测试和监控解决方案已升级为业界最全面的超大规模数据中心测试套件：

光纤认证：

除了高效可靠的光纤检测以防止吞吐量和性能下降外，还需完成 Tier 1 光纤认证（验证损耗水平和极性）和 Tier 2 认证（通过 OTDR 测试精确定位光回损的来源和位置）。

VIAVI 提供专门为 MPO 接口和高密度光纤环境设计的先进自动化光纤认证和特性分析解决方案。

远程监控：

SmartOTU：在怀疑性能下降或光纤窃听时提供即时警报。

ONMSi 远程光纤测试系统（RFTS）：执行持续的 OTDR “扫描”，准确检测和预测整个网络中的光纤问题。

MAP-2100：为无人数据中心执行重要的误码率（BER）测试。

测试流程自动化（TPA）：自动化为超大规模数据中心提升性能、可靠性、测试效率和一致性提供了途径。应用于光纤检测、认证和网络监控工作流的测试流程自动化可加速测试和报告周期，减少培训需求，并改善技术人员与客户之间的协作。

VIAVI 助力超大规模数据中心

尽管 5G 和物联网推动网络解耦并将算力推向边缘，超大规模数据中心的规模和复杂性仍在不断增长。VIAVI 帮助运营商和供应商充分利用超大规模生态系统及其承载的服务，使其能够部署基础设施、成功扩展并实现创新盈利 —— 无论是现在还是未来。

凭借无与伦比的互操作测试产品和专业知识广度与深度，VIAVI 确保服务水平和可靠性符合超大规模数据中心运营商和服务提供商的高标准。利用数十年的经验和协作，VIAVI 测试解决方案在超大规模数据中心的整个生命周期（从实验室设计到现场部署和监控）中优化光硬件、光纤和网络性能。

自动化光纤认证、MPO 连接器检测、高速 400G 或 800G 吞吐量测试以及虚拟服务激活和监控等先进测试功能，旨在跟上超大规模数据中心不断增长的步伐。数据中心内的测试和保障范围延伸至数据中心园区、大型城域网，以及全球分布式数据中心网络及其互联。