NVIDIA 集成 CUDA Tile 后端用于 OpenAI Triton GPU 编程

By Amelia On 1 月 31, 2026

阿尔文·朗
2026 年 1 月 30 日 20:12

NVIDIA 针对 OpenAI Triton 的全新 CUDA Tile IR 后端使 Python 开发人员无需 CUDA 专业知识即可获得 Tensor Core 性能。需要 Blackwell GPU。

NVIDIA 发布了 Triton-to-TileIR，这是一个新的后端，它将 OpenAI 的 Triton 编程语言与该公司最近推出的 CUDA Tile 架构连接起来。该集成现已在 GitHub 上的 triton-lang 组织下提供，允许机器学习研究人员将 Triton 代码直接编译为 CUDA Tile IR，而不是传统的 PTX 汇编。

此举解决了人工智能开发中持续存在的瓶颈：从 NVIDIA Tensor Core 获得最佳性能通常需要深厚的 CUDA 专业知识，而大多数 ML 从业者缺乏这些专业知识。 Triton 已经通过 Python 语法简化了 GPU 内核开发，但仍然编译为线程级 SIMT 代码。新的后端在整个编译过程中保留了图块级语义，从而有可能释放更好的硬件利用率。

技术要求初始采用范围狭窄

问题是，Triton-to-TileIR 目前需要 CUDA 13.1 或更高版本以及 NVIDIA Blackwell 架构 GPU（例如 GeForce RTX 5080）。在未来的 CUDA 版本扩展兼容性之前，前几代 GPU 将无法工作。这限制了已经运行下一代硬件的组织立即采用。

CUDA Tile 本身代表了 NVIDIA 自 2006 年以来最大的平台转变，从显式线程管理转向基于图块的抽象，开发人员在数据块而不是单个线程上描述操作。编译器自动处理线程调度和硬件映射。

已知的性能差距仍然存在

该项目有一些警告。并非所有 Triton 操作都在 Tile IR 后端中实现。更重要的是，NVIDIA 承认“指针张量”模式（一种常见的 Triton 内存访问编码风格）在 CUDA 13.1 中表现出“次优性能”。

解决方法包括重构代码以使用 TMA（张量内存加速器）加载/存储 API，而不是在内核内具体化指针张量。 NVIDIA 的文档包含具体的代码示例，显示从指针张量样式到 TMA 支持的操作的迁移路径。

在后端之间切换只需要更改环境变量（ENABLE_TILE=1），开发人员可以基于每个内核选择后端。编译后的内核缓存具有 .tileIR 扩展名，而不是标准 .cubin 文件。

人工智能发展的战略意义

这种集成对于更广泛的人工智能基础设施堆栈至关重要。 Triton 作为手动调整的 CUDA 内核的替代方案获得了巨大的关注，并在 PyTorch 和各种推理框架中得到采用。通过 Triton 熟悉的界面访问 Tile IR 可以加速 NVIDIA 新编程模型的采用，而无需强制生态系统重写。

NVIDIA 还与 Helion 等开源项目合作，以扩展 Tile IR 后端支持。作为一个孵化器项目，一旦实现成熟，Triton-to-TileIR 最终可能会合并到主 Triton 编译器中。

对于 AI 基础设施投资者和开发人员来说，NVIDIA 本身确定的关键指标是：GPU 专业知识有限的研究人员是否可以编写以接近最佳性能执行的 Triton 代码。这一结果将大大降低定制内核开发的障碍——目前这是一项在机器学习就业市场上获得高薪的专业技能。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻

NVIDIA 集成 CUDA Tile 后端用于 OpenAI Triton GPU 编程

技术要求 初始采用范围狭窄

已知的性能差距仍然存在

人工智能发展的战略意义

技术要求初始采用范围狭窄