NVIDIA的GB200 NVL72和Dynamo增强MOE模型性能

By Amelia On 6 月 7, 2025

劳伦斯·詹格（Lawrence Jengar）
6月6日，2025年11:56

NVIDIA的最新创新GB200 NVL72和Dynamo显着提高了专家混合（MOE）模型的推理性能，从而提高了AI部署的效率。

NVIDIA的最新报告称，NVIDIA继续使用其最新产品GB200 NVL72和NVIDIA DYNAMO推动AI性能的界限，根据NVIDIA的最新报告，它们大大提高了专家混合（MOE）模型的推理性能。这些进步有望优化计算效率并降低成本，从而使它们成为AI部署的游戏规则。

释放MOE模型的力量

最新的开源大型语言模型（LLM），例如DeepSeek R1，Llama 4和Qwen3，已经采用了Moe架构。与传统密集的模型不同，MOE模型在推理过程中仅激活一部分专用参数或“专家”，从而导致处理时间更快并降低了运营成本。 NVIDIA的GB200 NVL72和Dynamo利用这种体系结构来解锁新的效率水平。

分解服务和模型并行性

讨论的关键创新之一是分解份量，该份量将预填充和解码相位的不同GPU分开，从而可以进行独立的优化。这种方法通过应用针对每个阶段的特定要求量身定制的各种模型并行策略来提高效率。专家并行性（EP）被引入为新维度，在GPU上分发模型专家以改善资源利用率。

NVIDIA Dynamo在优化中的作用

分布式推理服务框架NVIDIA DYNAGO简化了分解服务体系结构的复杂性。它管理GPU之间KV缓存的快速传输和智能路由请求以优化计算。 Dynamo的动态速率匹配可确保有效分配资源，从而防止闲置GPU并优化吞吐量。

利用NVIDIA GB200 NVL72 NVLINK架构

GB200 NVL72的NVLINK架构最多支持72个NVIDIA Blackwell GPU，提供的通信速度比当前的以太网标准快36倍。这种基础架构对于MOE模型至关重要，在这里，必须在专家之间进行高速沟通。 GB200 NVL72的功能使其成为提供具有广泛专家并行性的MOE模型的理想选择。

超越教育部：加速密集模型

除了MOE模型之外，NVIDIA的创新还提高了传统密集模型的性能。与Dynamo配对的GB200 NVL72显示了诸如Llama 70B之类的模型的显着性能增长，适应更严格的延迟约束和增加的吞吐量。

结论

NVIDIA的GB200 NVL72和DYNAMO代表了AI推理效率的实质性飞跃，使AI工厂能够最大程度地利用GPU利用并每次投资提供更多要求。这些进步标志着优化AI部署，推动持续增长和效率的关键步骤。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA的GB200 NVL72和Dynamo增强MOE模型性能