The news is by your side.

NVIDIA的NVFP4格式用4位精度彻底改变了AI训练

5


艾里斯·科尔曼(Iris Coleman)
2025年8月25日12:33

NVIDIA介绍了NVFP4,这是一种4位精度格式,在保持准确性的同时提高了AI训练速度和效率,这标志着大语言模型开发的飞跃。




NVIDIA通过引入NVFP4(一种4位精度格式,有望彻底改变AI模型开发的效率和速度),在AI培训中取得了长足进步。根据NVIDIA的博客,这种新格式旨在保持16位计算的精度,同时提供4位操作的速度和效率。

AI工作负载和NVFP4

对AI工作负载的需求激增,尤其是随着大型语言模型(LLM)的部署,以及在训练和训练后阶段进行更多令牌的必要性。 NVFP4已成为解决这些需求的重要创新,从而可以显着提高培训效率和基础设施优化。 NVFP4的引入标志着训练大型模型的基本转变,为高性能AI模型开发树立了新的标准。

了解4位量化

4位量化涉及降低模型权重和激活的精度,这是标准的16位或32位浮点格式的显着降低。在训练期间,必须仔细处理这种精度的降低,以保持准确性,同时提高训练速度。需要专门的技术将高精度张量映射到有效的较小量化值集。

AI工厂的好处

严重依赖计算基础设施的AI工厂将从NVFP4中受益匪浅。通过减少内存需求并提高算术吞吐量,NVFP4使AI工厂可以使用相同的硬件处理更多的令牌。这种进步允许更快的收敛周期和每单位计算的实验,从而促进了较大模型的发展。

NVFP4的预处理食谱

为了实现4位预处理,NVIDIA开发了量身定制的NVFP4预处理配方。这种方法解决了诸如动态范围,梯度波动率和数值稳定性之类的挑战。 Blackwell Architecture凭借对FP4格式的本机支持,可以加速窄精度矩阵操作,使其非常适合部署基于FP4的预读的下一代AI工厂。

实际应用和实验

在12亿个参数模型上使用NVFP4进行的实验证明了其对大规模模型训练的生存能力。 NVFP4格式支持以万亿范围的规模进行全面预处理,而无需与超低精度训练有关的不稳定性或发散问题。 NVFP4的验证损失曲线与较高精确的基线的验证曲线非常匹配,证明了其有效性。

总体而言,NVIDIA的NVFP4将通过为速度,效率和有目的的创新提供新的基准来重新定义AI培训。通过实现4位预处理,NVFP4赋予了人工智能工厂更快,更可持续的规模,为下一个生成AI时代铺平了道路。作为一种动态和不断发展的技术,NVFP4继续为建立前沿模型的团队开辟新的机会。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: