NVIDIA的NVFP4格式用4位精度彻底改变了AI训练

By Amelia On 8 月 26, 2025

艾里斯·科尔曼（Iris Coleman）
2025年8月25日12:33

NVIDIA介绍了NVFP4，这是一种4位精度格式，在保持准确性的同时提高了AI训练速度和效率，这标志着大语言模型开发的飞跃。

NVIDIA通过引入NVFP4（一种4位精度格式，有望彻底改变AI模型开发的效率和速度），在AI培训中取得了长足进步。根据NVIDIA的博客，这种新格式旨在保持16位计算的精度，同时提供4位操作的速度和效率。

AI工作负载和NVFP4

对AI工作负载的需求激增，尤其是随着大型语言模型（LLM）的部署，以及在训练和训练后阶段进行更多令牌的必要性。 NVFP4已成为解决这些需求的重要创新，从而可以显着提高培训效率和基础设施优化。 NVFP4的引入标志着训练大型模型的基本转变，为高性能AI模型开发树立了新的标准。

4位量化涉及降低模型权重和激活的精度，这是标准的16位或32位浮点格式的显着降低。在训练期间，必须仔细处理这种精度的降低，以保持准确性，同时提高训练速度。需要专门的技术将高精度张量映射到有效的较小量化值集。

严重依赖计算基础设施的AI工厂将从NVFP4中受益匪浅。通过减少内存需求并提高算术吞吐量，NVFP4使AI工厂可以使用相同的硬件处理更多的令牌。这种进步允许更快的收敛周期和每单位计算的实验，从而促进了较大模型的发展。

为了实现4位预处理，NVIDIA开发了量身定制的NVFP4预处理配方。这种方法解决了诸如动态范围，梯度波动率和数值稳定性之类的挑战。 Blackwell Architecture凭借对FP4格式的本机支持，可以加速窄精度矩阵操作，使其非常适合部署基于FP4的预读的下一代AI工厂。

在12亿个参数模型上使用NVFP4进行的实验证明了其对大规模模型训练的生存能力。 NVFP4格式支持以万亿范围的规模进行全面预处理，而无需与超低精度训练有关的不稳定性或发散问题。 NVFP4的验证损失曲线与较高精确的基线的验证曲线非常匹配，证明了其有效性。

总体而言，NVIDIA的NVFP4将通过为速度，效率和有目的的创新提供新的基准来重新定义AI培训。通过实现4位预处理，NVFP4赋予了人工智能工厂更快，更可持续的规模，为下一个生成AI时代铺平了道路。作为一种动态和不断发展的技术，NVFP4继续为建立前沿模型的团队开辟新的机会。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：