NVIDIA与Llama 4 Maverick和Blackwell GPU超过1,000 TPS/用户


劳伦斯·詹格(Lawrence Jengar)
2025年5月23日02:10

NVIDIA使用Blackwell GPU和Llama 4 Maverick实现了超过1,000 TP/用户的世界纪录速度,为AI模型性能设定了新的标准。




NVIDIA通过其最新成就为人工智能绩效树立了新的基准,使用Llama 4 Maverick Model和Blackwell GPU打破了每个用户屏障每秒1000个令牌(TPS)。 AI基准服务人工分析可以独立验证这一成就,这标志着大语言模型(LLM)推断速度的重要里程碑。

技术进步

这一突破是在配备了八个NVIDIA Blackwell GPU的单个NVIDIA DGX B200节点上实现的,该节点设法在Llama 4 Maverick(一种400亿个参数模型)上处理了每个用户的1000多个TPS。这种性能使Blackwell成为部署Llama 4的最佳硬件,以最大程度地提高吞吐量或最大程度地减少潜伏期,在高吞吐量配置中最多可达到72,000 TPS/服务器。

优化技术

NVIDIA使用Tensorrt-LLM实施了广泛的软件优化,以充分利用Blackwell GPU。该公司还使用Eagle-3技术培训了投机性解码模型,与以前的基线相比,速度提高了四倍。这些增强功能在提高性能的同时保持了响应精度,利用FP8数据类型来用于GEMM和专家的混合物,从而确保与BF16指标相当的准确性。

低潜伏期的重要性

在生成的AI应用中,平衡吞吐量和潜伏期至关重要。对于需要快速决策的关键应用程序,NVIDIA的Blackwell GPU通过最小化延迟而出色,如TPS/用户记录所示。硬件处理高吞吐量和低潜伏期的能力使其非常适合各种AI任务。

CUDA内核和投机解码

NVIDIA优化了用于GEMM,MOE和注意力操作的CUDA内核,利用空间分区和有效的内存数据加载来最大程度地提高性能。通过使用较小,更快的草稿模型来预测投机令牌,采用了投机解码来加速LLM推理速度,并由较大的目标LLM验证。这种方法会产生大幅加速,尤其是当草案模型的预测准确时。

程序化依赖性启动

为了进一步提高性能,NVIDIA利用程序化依赖性启动(PDL)来减少连续CUDA内核之间的GPU空闲时间。该技术允许重叠内核执行,改善GPU利用率并消除性能差距。

NVIDIA的成就强调了其在AI基础架构和数据中心技术方面的领导力,为AI模型部署的速度和效率树立了新的标准。 Blackwell体系结构和软件优化的创新继续推动了AI性能中可能的界限,确保响应迅速,实时的用户体验和强大的AI应用程序。

有关更多详细信息,请访问NVIDIA官方博客。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

GPU超过1000Maverick和BlackwellNVIDIA与LlamaTPS用户
Comments (0)
Add Comment