泰德·霍索瓦(Ted Hisokawa)
7月18日,2025年04:10
NVIDIA揭开了Cutlass 4.0,引入了Python界面,以增强GPU性能,以进行深度学习和高性能计算,并利用CUDA张量和空间微粒。
NVIDIA宣布发布Cutlass 4.0,这是一个重大更新,它将Python界面引入其CUDA库,旨在优化深度学习(DL)和高性能计算(HPC)中的GPU性能。根据Nvidia的数据,这种发展标志着Cutlass的演变的一个新阶段,该阶段自2017年以来一直在不断发展。
Cutlass 3.x的增强
以前的版本Cutlass 3.X引入了Cute,该库旨在通过布局抽象来简化线程和数据的操纵。这种抽象允许更直观的线程和数据组织,从而增强了张量核心操作的性能。 Cute的布局系统为开发人员提供了清晰可检查的索引逻辑,该逻辑支持静态和动态信息表示。
Cutlass 3.X强调自定义和合成性,使开发人员可以在库中修改库中的任何图层,同时保持与其他组件的兼容性。此版本还引入了编译时间检查,以确保内核正确性,减少API表面积以使学习曲线平滑,并优化NVIDIA的Hopper H100和Blackwell B200架构的性能。
可爱的布局和张量
Cute的布局表示是其功能的基石,它提供了支持复杂张量操作的层次结构系统。该系统使开发人员能够构建除传统的行 – 马约尔和列格式以外的复杂数据布局。 Cute的布局代数使程序员可以专注于算法逻辑,而图书馆管理数据组织的机械方面。
可爱提供 Layout
和 Tensor
封装数据类型,形状,内存空间和布局的对象,简化了索引过程。这种抽象促进了密集线性代数算法的设计和实现,这对于高性能GPU应用至关重要。
Cutlass 4.0的进步
随着Cutlass 4.0的引入,NVIDIA通过集成Python界面来扩展其功能,从而使更广泛的开发人员可访问可爱的功能。此更新保留了Cutlass 3.X的核心原理,同时增强了可用性和性能优化。
更新的库继续利用Cute在布局转换和分区中的优势,从而在GPU线程中有效地数据管理。该功能对于最大化DL和HPC域中GPU应用程序的性能至关重要。
对GPU编程的影响
通过抽象张量布局和线程映射的复杂性,Cutlass赋予开发人员编写更有效的CUDA代码。可爱提供的统一代数界面简化了高性能GPU应用程序的开发,确保开发人员可以专注于算法创新,而不是低级实现细节。
Nvidia的Cutlass的持续发展反映了其对推进GPU技术的承诺,从而提供了工具,使开发人员能够利用现代GPU的全部潜力来苛刻的计算任务。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: