NVIDIA揭幕了NVFP4,用于增强的低精油AI推断


Alvin Lang
6月24日,2025年11:02

NVIDIA推出了NVFP4,这是Blackwell体系结构下的一种新的4位浮点格式,旨在以提高的准确性和效率来优化AI推断。




NVIDIA宣布了NVFP4的推出,NVFP4是一种创新的4位浮点格式,旨在通过优化性能和准确性来增强AI模型推断。根据NVIDIA的官方博客文章的报道,这种开发是NVIDIA Blackwell GPU架构的一部分,旨在为开发人员提供一个新的低精确计算工具。

NVFP4:AI推理迈出的一步

NVFP4格式基于低位“微型”浮点格式的概念,为开发人员提供了更大的灵活性。它的结构类似于其他4位浮点格式,具有1个符号位,2个指数位和1个Mantissa位,允许大约在-6到6之间的值范围。

低精度格式的重大挑战之一是保持数值准确性。 NVIDIA通过NVFP4通过高精度尺度编码和两级微块缩放策略来解决此问题,该策略将细粒度的缩放因子应用于张量中的每个16值微块。这种方法可最大程度地减少量化误差并增强值的表示准确性。

NVFP4的比较优势

NVFP4格式比其前代产品(例如MXFP4)具有多种优势。通过将块大小从32个值减少到16个值,NVFP4允许对张量的动态范围进行更局部的适应,从而减少量化误差并保留模型性能。这种细粒度的缩放对于保持AI模型的准确性至关重要,尤其是在具有较大数量混合物的应用中。

与FP8相比,NVFP4证明了最小的精度降解,从而确保在量化过程中保留了模型智能。例如,在关键语言建模任务中,NVFP4表现出比FP8的精度下降不到1%,在某些情况下,甚至提高了准确性。

效率和节能

NVFP4不仅降低了记忆足迹和计算复杂性,而且还可以显着提高能源效率。与先前的NVIDIA H100 Tensor Core相比,支持NVFP4的NVIDIA的Blackwell Architecture可以提高高达50倍的能源效率。这种改进对于大规模的AI部署至关重要,在大规模的AI部署中,能源消耗是一个重大问题。

实施和采用

NVIDIA的生态系统正在迅速采用NVFP4精度来满足AI工作量不断增长的需求。 Tensorrt模型优化器和LLM压缩机等工具提供了简化的工作流程,以将模型量化为NVFP4。此外,在拥抱脸等平台上提供了盛产的检查点,以立即部署。

NVFP4的引入标志着AI模型优化的显着进步,为开发人员提供了强大的工具,可提高推理效率而不牺牲准确性。随着NVFP4的吸引力,NVIDIA继续支持其在各种AI框架和应用程序中的集成。

有关更多信息,请访问NVIDIA博客。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

NVIDIA揭幕了NVFP4用于增强的低精油AI推断
Comments (0)
Add Comment