The news is by your side.

NVIDIA 集成 CUDA Tile 后端用于 OpenAI Triton GPU 编程

6


阿尔文·朗
2026 年 1 月 30 日 20:12

NVIDIA 针对 OpenAI Triton 的全新 CUDA Tile IR 后端使 Python 开发人员无需 CUDA 专业知识即可获得 Tensor Core 性能。需要 Blackwell GPU。




NVIDIA 发布了 Triton-to-TileIR,这是一个新的后端,它将 OpenAI 的 Triton 编程语言与该公司最近推出的 CUDA Tile 架构连接起来。该集成现已在 GitHub 上的 triton-lang 组织下提供,允许机器学习研究人员将 Triton 代码直接编译为 CUDA Tile IR,而不是传统的 PTX 汇编。

此举解决了人工智能开发中持续存在的瓶颈:从 NVIDIA Tensor Core 获得最佳性能通常需要深厚的 CUDA 专业知识,而大多数 ML 从业者缺乏这些专业知识。 Triton 已经通过 Python 语法简化了 GPU 内核开发,但仍然编译为线程级 SIMT 代码。新的后端在整个编译过程中保留了图块级语义,从而有可能释放更好的硬件利用率。

技术要求 初始采用范围狭窄

问题是,Triton-to-TileIR 目前需要 CUDA 13.1 或更高版本以及 NVIDIA Blackwell 架构 GPU(例如 GeForce RTX 5080)。在未来的 CUDA 版本扩展兼容性之前,前几代 GPU 将无法工作。这限制了已经运行下一代硬件的组织立即采用。

CUDA Tile 本身代表了 NVIDIA 自 2006 年以来最大的平台转变,从显式线程管理转向基于图块的抽象,开发人员在数据块而不是单个线程上描述操作。编译器自动处理线程调度和硬件映射。

已知的性能差距仍然存在

该项目有一些警告。并非所有 Triton 操作都在 Tile IR 后端中实现。更重要的是,NVIDIA 承认“指针张量”模式(一种常见的 Triton 内存访问编码风格)在 CUDA 13.1 中表现出“次优性能”。

解决方法包括重构代码以使用 TMA(张量内存加速器)加载/存储 API,而不是在内核内具体化指针张量。 NVIDIA 的文档包含具体的代码示例,显示从指针张量样式到 TMA 支持的操作的迁移路径。

在后端之间切换只需要更改环境变量(ENABLE_TILE=1),开发人员可以基于每个内核选择后端。编译后的内核缓存具有 .tileIR 扩展名,而不是标准 .cubin 文件。

人工智能发展的战略意义

这种集成对于更广泛的人工智能基础设施堆栈至关重要。 Triton 作为手动调整的 CUDA 内核的替代方案获得了巨大的关注,并在 PyTorch 和各种推理框架中得到采用。通过 Triton 熟悉的界面访问 Tile IR 可以加速 NVIDIA 新编程模型的采用,而无需强制生态系统重写。

NVIDIA 还与 Helion 等开源项目合作,以扩展 Tile IR 后端支持。作为一个孵化器项目,一旦实现成熟,Triton-to-TileIR 最终可能会合并到主 Triton 编译器中。

对于 AI 基础设施投资者和开发人员来说,NVIDIA 本身确定的关键指标是:GPU 专业知识有限的研究人员是否可以编写以接近最佳性能执行的 Triton 代码。这一结果将大大降低定制内核开发的障碍——目前这是一项在机器学习就业市场上获得高薪的专业技能。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻