The news is by your side.

NVIDIA 推出具有增强 GPU 通信功能的 NVSHMEM 3.0

22


杰西·埃利斯
2024 年 9 月 7 日 08:39

NVIDIA 的 NVSHMEM 3.0 提供多节点支持、ABI 向后兼容性和 CPU 辅助的 InfiniBand GPU Direct Async,增强了 GPU 通信。




NVIDIA 宣布发布 NVSHMEM 3.0,这是其并行编程接口的最新版本,旨在促进 NVIDIA GPU 集群的高效和可扩展通信。据 NVIDIA 技术博客称,此更新是 NVIDIA Magnum IO 的一部分,基于 OpenSHMEM,旨在增强应用程序在各个平台上的可移植性和兼容性。

新功能和界面支持

NVSHMEM 3.0 引入了多项新功能,包括多节点、多互连支持、主机设备 ABI 向后兼容以及 CPU 辅助 InfiniBand GPU Direct Async (IBGDA)。

多节点、多互连支持

新版本支持通过 P2P 互连(例如 NVIDIA NVLink/PCIe)在节点内连接多个 GPU,以及使用 RDMA 互连(例如 InfiniBand 和 RDMA over Converged Ethernet (RoCE))在节点间连接多个 GPU。此增强功能包括通过 RDMA 网络连接的多个 NVIDIA GB200 NVL72 系统机架的平台支持。

主机设备 ABI 向后兼容性

NVSHMEM 3.0 引入了跨次要版本的向后兼容性,允许链接到旧版本 NVSHMEM 的应用程序在具有较新版本的系统上运行。此功能有助于更顺畅地更新,并减少了每次发布新版本时重新编译应用程序的需要。

CPU 辅助 InfiniBand GPU 直接异步

最新版本还支持 CPU 辅助 IBGDA,它将控制平面职责划分给 GPU 和 CPU。这种方法有助于提高 IBGDA 在非一致性平台上的采用率,并放宽大规模集群中的管理级配置限制。

非界面支持和细微增强

NVSHMEM 3.0 包括一些小的增强和非接口支持,例如:

面向对象对称堆编程框架

此版本引入了面向对象编程 (OOP) 框架来管理不同类型的对称堆,包括静态和动态设备内存。OOP 框架简化了对高级功能的扩展并改进了数据封装。

性能改进和错误修复

NVSHMEM 3.0 带来了各种性能改进和错误修复,包括 IBGDA 设置方面的增强、块范围的设备减少、系统范围的原子内存操作 (AMO) 和团队管理。

概括

NVSHMEM 3.0 的发布标志着 NVIDIA 并行编程接口的重大升级。多节点多互连支持、主机设备 ABI 向后兼容和 CPU 辅助 IBGDA 等关键功能旨在增强 GPU 通信和应用程序可移植性。管理员和开发人员现在可以在不中断现有应用程序的情况下更新到较新版本的 NVSHMEM,从而确保在大规模 GPU 集群中实现更顺畅的过渡和更好的性能。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news