NVIDIA的NCCL 2.24增强了网络可靠性和可观察性


乔格·希勒(Joerg Hiller)
3月14日,2025年02:22

NVIDIA的最新NCCL 2.24版本推出了新功能,以增强多GPU和多键通信,包括RAS子系统,NIC Fusion和FP8支持,从而优化了深度学习培训。




NVIDIA Collective Communications库(NCCL)介绍了其最新版本2.24,在Multi-GPU和Multinode(MGMN)Communication的网络可靠性和可观察性方面带来了重大进步。正如Nvidia Developer Blog报道的那样,该版本专门针对NVIDIA GPU和网络进行了优化,这使其成为多GPU深度学习培训的重要组成部分。

NCCL 2.24新功能

该更新包括旨在提高性能和可靠性的几个新功能:

  • 可靠性,可用性和可用性(RAS)子系统
  • 多端集体的用户缓冲区(UB)注册
  • NIC融合
  • 可选的接收完成
  • FP8支持
  • 严格执行 NCCL_ALGONCCL_PROTO

RAS子系统

RAS子系统是NCCL 2.24中的杰出成员之一。它旨在帮助用户诊断崩溃和悬挂等应用程序问题,尤其是在大规模部署中。这种低空的基础架构提供了运行应用程序的全局视图,从而可以检测出异常,例如反应性节点或滞后过程。它通过在NCCL进程中创建线程网络来运行,该过程通过常规的静脉消息来监控彼此的健康状况。

用户缓冲区注册的增强功能

NCCL 2.24引入了多端集体的用户缓冲(UB)注册,从而可以更有效的数据传输并减少GPU资源消耗。该图书馆现在支持UB注册,用于多个等级的集体网络和标准的对等网络,提供了显着的性能增长,尤其是对于Allgather和Allgather和Broadcast等运营。

NIC融合

随着许多NIC系统的扩展,NCCL已适应优化网络通信。新的NIC Fusion功能允许将多个NIC逻辑合并为单个实体,从而有效利用网络资源。该功能对于每个GPU多个NIC的系统特别有益,解决了崩溃和效率低下的资源分配等问题。

其他功能和修复

该更新还引入了LL和LL128协议的可选接收完成,从而减少了开销和拥塞。 NCCL 2.24支持NVIDIA HOPPER和更新架构的本地FP8减少,从而增强了处理能力。另外,更严格的执行 NCCL_ALGONCCL_PROTO 已实施,确保用户更精确地调整和错误处理。

此更新还包括各种错误修复和较小的改进,例如对PAT调整的调整和内存分配功能增强功能,从而提高了NCCL库的整体鲁棒性和效率。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

2.24增强了网络可靠性和可观察性NVIDIA的NCCL
Comments (0)
Add Comment