增强AI网络弹性：Spectrum-X和BGP PIC的作用

By Amelia On 4 月 12, 2025

劳伦斯·詹格（Lawrence Jengar）
2025年4月11日23:34

探索NVIDIA的Spectrum-X和BGP PIC如何地址AI织物的弹性，最大程度地减少对AI工作负载的潜伏期和数据包损失的影响，从而提高高性能计算环境的效率。

在不断发展的高性能计算和深度学习的景观中，工作负载对潜伏期和数据包损失的敏感性已成为一个关键问题。根据NVIDIA的说法，其基于以太网的东西方面的AI织物解决方案Spectrum-X旨在通过确保网络弹性并最大程度地减少AI工作负载中的破坏来解决这些挑战。

了解数据包滴答敏感性

NVIDIA集体通信库（NCCL）对于高速，低延迟环境是关键的，通常在Infiniband，NVLink或基于以太网的Spectrum-X等无损网络上运行。网络中断，例如延迟，抖动和数据包丢失，可能会严重影响NCCL的效率，因为它严重依赖于GPU之间的紧密同步。数据包丢失通常是由外部因素（例如环境条件或硬件故障）造成的，会使通信管道停滞不前并降低性能。

NCCL的设计假设了一个可靠的运输层，因此缺乏强大的错误恢复机制。最小的数据包损失对于保持高性能至关重要，因为任何丢失的数据包都会导致延迟和减少吞吐量，特别是影响大语模型（LLMS）的培训。

AI数据中心织物弹性

为了提高弹性，现代AI数据中心织物依靠可扩展的BGP（边界网关协议）来管理网络收敛。 BGP重新计算最佳路径，并更新路由信息，以响应网络更改，例如链接故障。但是，随着GPU簇的增长，BGP路由表的大小增加，可能会减慢收敛时间。

BGP前缀独立收敛（PIC）通过预先计算备份路径提供了解决方案，从而可以更快地恢复而无需等待每个前缀分别收敛。此功能对于维持NCCL性能和减少AI工作负载适应网络更改所需的时间至关重要。

实施BGP PIC以更快地收敛

BGP PIC通过允许网络织物独立于前缀计数来最大程度地减少收敛时间。这是通过预先计算的备份路径来实现的，该路径可确保从网络中断中快速恢复。通过利用BGP PIC，NVIDIA的Spectrum-X可以更有效地支持大型GPU群集，从而使其成为AI工作负载的独特解决方案。

BGP PIC与Spectrum-X的集成增强了AI数据中心织物的弹性，使它们更强大地抵抗链接失败，并确保训练LLMS的确定性时间范围。

有关这些技术的详细探索，请访问NVIDIA博客。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

PIC的作用增强AI网络弹性SpectrumX和BGP