人工智能数据中心的关键布线注意事项

2024-8-10 / 0 评论 / 434 阅读

人工智能数据中心的关键布线注意事项

近年来,人工智能 (AI) 领域发生了巨大变化,突破了技术所能实现的界限,并改变了支持该技术所需的基础设施。这种转变的一个关键方面是 AI 数据中心的架构,它必须适应 AI 计算的独特需求。本文深入探讨了康普对 AI 数据中心的布线考虑,探讨了优化性能和效率所必需的挑战和最佳实践。

向 AI 驱动的数据中心转变

AI 技术的普及,以 DALL-E 2 和 ChatGPT 等创新为代表,极大地影响了公众对 AI 的看法和期望。随着这些技术对各个行业越来越不可或缺,支持它们的基础设施也必须不断发展。AI 现在是数据中心增长的主要驱动力,因此需要改变这些中心的设计和运营方式。

AI 计算严重依赖于图形处理单元 (GPU),它们专门用于并行处理。训练和运行 AI 模型所需的处理能力通常超出单台机器的能力,因此需要在服务器和机架之间互连多个 GPU。这种设置在数据中心内形成 AI 集群,带来了独特的布线挑战和机遇。

架构差异:AI 与传统数据中心

传统数据中心,尤其是超大规模设施,通常采用折叠式 Clos 架构,也称为“叶脊”架构。在这种设置中,服务器机架连接到架顶式 (ToR) 交换机,然后通过光纤电缆连接到叶交换机。然而,AI 集群需要采用不同的方法,因为它们对服务器之间的连接要求更高,并且 GPU 服务器会产生大量电力和热量。

报告中概述道:“GPU 服务器需要更多的服务器间连接,但由于功率和热量限制,每个机架的服务器数量通常较少。因此,与传统架构相比,AI 数据中心架构中的机架间布线更多。”这种布线复杂性的增加对于支持 AI 工作负载所需的更高数据传输速率是必要的,这些工作负载的传输速率范围从 100G 到 400G,而铜缆无法支持这些传输距离。

实际示例:NVIDIA 的 AI 数据中心架构

AI 硬件领域的领导者 NVIDIA 提供了 AI 数据中心架构的一个典型示例。他们最新的 GPU 服务器 DGX H100 具有多个高速光纤端口用于连接。单个 DGX SuperPOD(包含 32 台 GPU 服务器的集群)需要 384x400G 光纤链路用于交换结构和存储,以及 64 条铜缆链路用于管理。与传统数据中心架构相比,此设置说明了光纤链路的大幅增加。

最大限度地减少 AI 集群中的延迟

延迟是 AI 和机器学习 (ML) 算法中的一个关键因素,运行大型训练模型所需的大部分时间都归因于网络延迟。正如报告中所述,“一项估计声称,运行大型训练模型的 30% 的时间花在网络延迟上,70% 的时间花在计算时间上。”为了最大限度地减少延迟,AI 集群旨在让 GPU 服务器保持紧密距离,几乎所有链接都限制在 100 米范围内。

然而,并非所有数据中心都能适应这种配置,尤其是功率容量较低的老旧设施。这些中心可能需要将 GPU 机架隔开,这进一步增加了布线要求。

选择合适的收发器和光纤电缆

选择合适的光收发器和光纤电缆对于成本和功率效率至关重要。该报告强调了并行光学的优势,它不需要波分复用 (WDM) 中使用的光复用器和解复用器。例如,带有八光纤电缆的 400G-DR4 收发器比 400G-FR4 收发器更具成本效益。

此外,单模和多模光纤之间的选择受成本和功率考虑的影响。虽然单模收发器变得更实惠,但多模收发器仍然更便宜,功耗更低。这种差异可以带来显着的节省,特别是在具有数百个收发器的大型 AI 集群中。

有源光缆与带光纤电缆的收发器

有源光缆 (AOC) 通常用于 AI、ML 和高性能计算 (HPC) 集群。这些电缆集成了光发射器和接收器,提供一体化解决方案。然而,AOC 缺乏独立收发器和光纤电缆的灵活性,因此不太适合未来的升级,而且更容易出现故障。

报告总结道:“仔细考虑 AI 集群布线将有助于节省成本、电力和安装时间,使组织能够充分受益于 AI。” 通过满足 AI 数据中心独特的布线需求,运营商可以确保其设施能够满足当前和未来 AI 工作负载的需求。

随着 AI 继续推动数据中心的增长,这些设施的架构和布线必须不断发展以应对新的挑战。 通过采用最佳实践和优化布线基础设施,数据中心可以提高性能、降低成本并支持下一代 AI 创新。

作者:Tom Raynel

评论一下?

OωO
取消