人工智能数据中心的关键布线注意事项

近年来，人工智能 (AI) 领域发生了巨大变化，突破了技术所能实现的界限，并改变了支持该技术所需的基础设施。这种转变的一个关键方面是 AI 数据中心的架构，它必须适应 AI 计算的独特需求。本文深入探讨了康普对 AI 数据中心的布线考虑，探讨了优化性能和效率所必需的挑战和最佳实践。

向 AI 驱动的数据中心转变

AI 技术的普及，以 DALL-E 2 和 ChatGPT 等创新为代表，极大地影响了公众对 AI 的看法和期望。随着这些技术对各个行业越来越不可或缺，支持它们的基础设施也必须不断发展。AI 现在是数据中心增长的主要驱动力，因此需要改变这些中心的设计和运营方式。

AI 计算严重依赖于图形处理单元 (GPU)，它们专门用于并行处理。训练和运行 AI 模型所需的处理能力通常超出单台机器的能力，因此需要在服务器和机架之间互连多个 GPU。这种设置在数据中心内形成 AI 集群，带来了独特的布线挑战和机遇。

架构差异：AI 与传统数据中心

传统数据中心，尤其是超大规模设施，通常采用折叠式 Clos 架构，也称为“叶脊”架构。在这种设置中，服务器机架连接到架顶式 (ToR) 交换机，然后通过光纤电缆连接到叶交换机。然而，AI 集群需要采用不同的方法，因为它们对服务器之间的连接要求更高，并且 GPU 服务器会产生大量电力和热量。

报告中概述道：“GPU 服务器需要更多的服务器间连接，但由于功率和热量限制，每个机架的服务器数量通常较少。因此，与传统架构相比，AI 数据中心架构中的机架间布线更多。”这种布线复杂性的增加对于支持 AI 工作负载所需的更高数据传输速率是必要的，这些工作负载的传输速率范围从 100G 到 400G，而铜缆无法支持这些传输距离。

实际示例：NVIDIA 的 AI 数据中心架构

AI 硬件领域的领导者 NVIDIA 提供了 AI 数据中心架构的一个典型示例。他们最新的 GPU 服务器 DGX H100 具有多个高速光纤端口用于连接。单个 DGX SuperPOD（包含 32 台 GPU 服务器的集群）需要 384x400G 光纤链路用于交换结构和存储，以及 64 条铜缆链路用于管理。与传统数据中心架构相比，此设置说明了光纤链路的大幅增加。

最大限度地减少 AI 集群中的延迟

延迟是 AI 和机器学习 (ML) 算法中的一个关键因素，运行大型训练模型所需的大部分时间都归因于网络延迟。正如报告中所述，“一项估计声称，运行大型训练模型的 30% 的时间花在网络延迟上，70% 的时间花在计算时间上。”为了最大限度地减少延迟，AI 集群旨在让 GPU 服务器保持紧密距离，几乎所有链接都限制在 100 米范围内。

然而，并非所有数据中心都能适应这种配置，尤其是功率容量较低的老旧设施。这些中心可能需要将 GPU 机架隔开，这进一步增加了布线要求。

选择合适的收发器和光纤电缆

选择合适的光收发器和光纤电缆对于成本和功率效率至关重要。该报告强调了并行光学的优势，它不需要波分复用 (WDM) 中使用的光复用器和解复用器。例如，带有八光纤电缆的 400G-DR4 收发器比 400G-FR4 收发器更具成本效益。

此外，单模和多模光纤之间的选择受成本和功率考虑的影响。虽然单模收发器变得更实惠，但多模收发器仍然更便宜，功耗更低。这种差异可以带来显着的节省，特别是在具有数百个收发器的大型 AI 集群中。

有源光缆与带光纤电缆的收发器

有源光缆 (AOC) 通常用于 AI、ML 和高性能计算 (HPC) 集群。这些电缆集成了光发射器和接收器，提供一体化解决方案。然而，AOC 缺乏独立收发器和光纤电缆的灵活性，因此不太适合未来的升级，而且更容易出现故障。

报告总结道：“仔细考虑 AI 集群布线将有助于节省成本、电力和安装时间，使组织能够充分受益于 AI。” 通过满足 AI 数据中心独特的布线需求，运营商可以确保其设施能够满足当前和未来 AI 工作负载的需求。

随着 AI 继续推动数据中心的增长，这些设施的架构和布线必须不断发展以应对新的挑战。通过采用最佳实践和优化布线基础设施，数据中心可以提高性能、降低成本并支持下一代 AI 创新。