NVIDIA与Llama 4 Maverick和Blackwell GPU超过1,000 TPS/用户

劳伦斯·詹格（Lawrence Jengar）
2025年5月23日02:10

NVIDIA使用Blackwell GPU和Llama 4 Maverick实现了超过1,000 TP/用户的世界纪录速度，为AI模型性能设定了新的标准。

NVIDIA通过其最新成就为人工智能绩效树立了新的基准，使用Llama 4 Maverick Model和Blackwell GPU打破了每个用户屏障每秒1000个令牌（TPS）。 AI基准服务人工分析可以独立验证这一成就，这标志着大语言模型（LLM）推断速度的重要里程碑。

技术进步

这一突破是在配备了八个NVIDIA Blackwell GPU的单个NVIDIA DGX B200节点上实现的，该节点设法在Llama 4 Maverick（一种400亿个参数模型）上处理了每个用户的1000多个TPS。这种性能使Blackwell成为部署Llama 4的最佳硬件，以最大程度地提高吞吐量或最大程度地减少潜伏期，在高吞吐量配置中最多可达到72,000 TPS/服务器。

优化技术

NVIDIA使用Tensorrt-LLM实施了广泛的软件优化，以充分利用Blackwell GPU。该公司还使用Eagle-3技术培训了投机性解码模型，与以前的基线相比，速度提高了四倍。这些增强功能在提高性能的同时保持了响应精度，利用FP8数据类型来用于GEMM和专家的混合物，从而确保与BF16指标相当的准确性。

低潜伏期的重要性

在生成的AI应用中，平衡吞吐量和潜伏期至关重要。对于需要快速决策的关键应用程序，NVIDIA的Blackwell GPU通过最小化延迟而出色，如TPS/用户记录所示。硬件处理高吞吐量和低潜伏期的能力使其非常适合各种AI任务。

CUDA内核和投机解码

NVIDIA优化了用于GEMM，MOE和注意力操作的CUDA内核，利用空间分区和有效的内存数据加载来最大程度地提高性能。通过使用较小，更快的草稿模型来预测投机令牌，采用了投机解码来加速LLM推理速度，并由较大的目标LLM验证。这种方法会产生大幅加速，尤其是当草案模型的预测准确时。

程序化依赖性启动

为了进一步提高性能，NVIDIA利用程序化依赖性启动（PDL）来减少连续CUDA内核之间的GPU空闲时间。该技术允许重叠内核执行，改善GPU利用率并消除性能差距。

NVIDIA的成就强调了其在AI基础架构和数据中心技术方面的领导力，为AI模型部署的速度和效率树立了新的标准。 Blackwell体系结构和软件优化的创新继续推动了AI性能中可能的界限，确保响应迅速，实时的用户体验和强大的AI应用程序。

有关更多详细信息，请访问NVIDIA官方博客。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA与Llama 4 Maverick和Blackwell GPU超过1,000 TPS/用户

技术进步

优化技术

低潜伏期的重要性

CUDA内核和投机解码

程序化依赖性启动

Related Posts

以太坊价格预测2025报告将比特币Solaris确定为散户投资者的“下一个比特币”

核股在报告特朗普的报告上召集以签署支持行业的命令

特朗普说

Arka Softwares推出了全球市场的下一代幻想体育应用程序 – 区块链新闻网站

分析师在收入发布后削减甲板的户外评级

特朗普以50％的关税威胁欧盟 – 因为苹果公司在美国制造了iPhone，否则面对25％|美国新闻

英镑/美元：裂缝1.3500障碍，并在英国乐观的英国经济数据上击中了多个月的高点