乔格·希勒(Joerg Hiller)
3月14日,2025年02:22
NVIDIA的最新NCCL 2.24版本推出了新功能,以增强多GPU和多键通信,包括RAS子系统,NIC Fusion和FP8支持,从而优化了深度学习培训。
NVIDIA Collective Communications库(NCCL)介绍了其最新版本2.24,在Multi-GPU和Multinode(MGMN)Communication的网络可靠性和可观察性方面带来了重大进步。正如Nvidia Developer Blog报道的那样,该版本专门针对NVIDIA GPU和网络进行了优化,这使其成为多GPU深度学习培训的重要组成部分。
NCCL 2.24新功能
该更新包括旨在提高性能和可靠性的几个新功能:
- 可靠性,可用性和可用性(RAS)子系统
- 多端集体的用户缓冲区(UB)注册
- NIC融合
- 可选的接收完成
- FP8支持
- 严格执行
NCCL_ALGO
和NCCL_PROTO
RAS子系统
RAS子系统是NCCL 2.24中的杰出成员之一。它旨在帮助用户诊断崩溃和悬挂等应用程序问题,尤其是在大规模部署中。这种低空的基础架构提供了运行应用程序的全局视图,从而可以检测出异常,例如反应性节点或滞后过程。它通过在NCCL进程中创建线程网络来运行,该过程通过常规的静脉消息来监控彼此的健康状况。
用户缓冲区注册的增强功能
NCCL 2.24引入了多端集体的用户缓冲(UB)注册,从而可以更有效的数据传输并减少GPU资源消耗。该图书馆现在支持UB注册,用于多个等级的集体网络和标准的对等网络,提供了显着的性能增长,尤其是对于Allgather和Allgather和Broadcast等运营。
NIC融合
随着许多NIC系统的扩展,NCCL已适应优化网络通信。新的NIC Fusion功能允许将多个NIC逻辑合并为单个实体,从而有效利用网络资源。该功能对于每个GPU多个NIC的系统特别有益,解决了崩溃和效率低下的资源分配等问题。
其他功能和修复
该更新还引入了LL和LL128协议的可选接收完成,从而减少了开销和拥塞。 NCCL 2.24支持NVIDIA HOPPER和更新架构的本地FP8减少,从而增强了处理能力。另外,更严格的执行 NCCL_ALGO
和 NCCL_PROTO
已实施,确保用户更精确地调整和错误处理。
此更新还包括各种错误修复和较小的改进,例如对PAT调整的调整和内存分配功能增强功能,从而提高了NCCL库的整体鲁棒性和效率。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: