劳伦斯·詹格(Lawrence Jengar)
2025年4月11日23:34
探索NVIDIA的Spectrum-X和BGP PIC如何地址AI织物的弹性,最大程度地减少对AI工作负载的潜伏期和数据包损失的影响,从而提高高性能计算环境的效率。
在不断发展的高性能计算和深度学习的景观中,工作负载对潜伏期和数据包损失的敏感性已成为一个关键问题。根据NVIDIA的说法,其基于以太网的东西方面的AI织物解决方案Spectrum-X旨在通过确保网络弹性并最大程度地减少AI工作负载中的破坏来解决这些挑战。
了解数据包滴答敏感性
NVIDIA集体通信库(NCCL)对于高速,低延迟环境是关键的,通常在Infiniband,NVLink或基于以太网的Spectrum-X等无损网络上运行。网络中断,例如延迟,抖动和数据包丢失,可能会严重影响NCCL的效率,因为它严重依赖于GPU之间的紧密同步。数据包丢失通常是由外部因素(例如环境条件或硬件故障)造成的,会使通信管道停滞不前并降低性能。
NCCL的设计假设了一个可靠的运输层,因此缺乏强大的错误恢复机制。最小的数据包损失对于保持高性能至关重要,因为任何丢失的数据包都会导致延迟和减少吞吐量,特别是影响大语模型(LLMS)的培训。
AI数据中心织物弹性
为了提高弹性,现代AI数据中心织物依靠可扩展的BGP(边界网关协议)来管理网络收敛。 BGP重新计算最佳路径,并更新路由信息,以响应网络更改,例如链接故障。但是,随着GPU簇的增长,BGP路由表的大小增加,可能会减慢收敛时间。
BGP前缀独立收敛(PIC)通过预先计算备份路径提供了解决方案,从而可以更快地恢复而无需等待每个前缀分别收敛。此功能对于维持NCCL性能和减少AI工作负载适应网络更改所需的时间至关重要。
实施BGP PIC以更快地收敛
BGP PIC通过允许网络织物独立于前缀计数来最大程度地减少收敛时间。这是通过预先计算的备份路径来实现的,该路径可确保从网络中断中快速恢复。通过利用BGP PIC,NVIDIA的Spectrum-X可以更有效地支持大型GPU群集,从而使其成为AI工作负载的独特解决方案。
BGP PIC与Spectrum-X的集成增强了AI数据中心织物的弹性,使它们更强大地抵抗链接失败,并确保训练LLMS的确定性时间范围。
有关这些技术的详细探索,请访问NVIDIA博客。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: