增强使用NVIDIA运行的LLM推断：AI和Dynamo集成

By Amelia On 9 月 30, 2025

劳伦斯·詹格（Lawrence Jengar）
9月29日，2025年15:32

NVIDIA的运行：AI V2.23与Dynamo集成，以解决大型语言模型推理挑战，提供帮派调度和拓扑感知的位置，以进行高效，可扩展的部署。

大型语言模型（LLM）的快速扩展已经在计算需求和模型尺寸上引入了重大挑战，通常超过单个GPU的能力。为了应对这些挑战，NVIDIA宣布了其运行的集成：AI V2.23与NVIDIA Dynamo，旨在优化分布式环境中生成AI模型的部署。

应对缩放挑战

随着模型参数和分布式组件的增加，对高级协调的需求增长。像张量并行性这样的技术有助于管理能力，但引入了协调中的复杂性。 NVIDIA的Dynamo Framework通过提供用于分布式设置的高通量，低延迟推理解决方案来解决这些问题。

Dynamo通过分解的预填充和解码操作，动态GPU调度以及LLM-Aware请求路由来增强推理。这些功能可最大程度地提高GPU吞吐量，有效地平衡潜伏期和吞吐量。此外，NVIDIA的推理XFER库（NIXL）加速了数据传输，从而大大减少了响应时间。

有效的调度对于运行多节点推理工作负载至关重要。独立的调度可能会导致部分部署和闲置GPU，从而影响性能。 NVIDIA运行：AI的高级调度功能，包括帮派调度和拓扑感知的位置，确保有效的资源利用并减少延迟。

运行：AI与Dynamo的集成引入了帮派调度，可以实现相互依存的组件的原子部署以及拓扑感知的位置，该位置可以定位组件以最大程度地减少跨节点延迟。这种战略安置可以增强通信吞吐量并减少网络开销，这对于大规模部署至关重要。

为了利用这种集成的全部潜力，用户需要使用NVIDIA运行的Kubernetes群集：AI v2.23，已配置的网络拓扑和必要的访问令牌。 NVIDIA提供了详细的指南，以通过启用这些功能来设置和部署发电机。

通过将NVIDIA Dynamo的有效推理框架与运行：AI的高级调度结合在一起，多节点推理变得更加可预测和有效。这种集成确保了Kubernetes簇的更高的吞吐量，较低的延迟和最佳GPU利用，从而为缩放AI工作负载提供了可靠的解决方案。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：