The news is by your side.

增强使用NVIDIA运行的LLM推断:AI和Dynamo集成

6


劳伦斯·詹格(Lawrence Jengar)
9月29日,2025年15:32

NVIDIA的运行:AI V2.23与Dynamo集成,以解决大型语言模型推理挑战,提供帮派调度和拓扑感知的位置,以进行高效,可扩展的部署。




大型语言模型(LLM)的快速扩展已经在计算需求和模型尺寸上引入了重大挑战,通常超过单个GPU的能力。为了应对这些挑战,NVIDIA宣布了其运行的集成:AI V2.23与NVIDIA Dynamo,旨在优化分布式环境中生成AI模型的部署。

应对缩放挑战

随着模型参数和分布式组件的增加,对高级协调的需求增长。像张量并行性这样的技术有助于管理能力,但引入了协调中的复杂性。 NVIDIA的Dynamo Framework通过提供用于分布式设置的高通量,低延迟推理解决方案来解决这些问题。

NVIDIA DYNAMO在推理加速中的作用

Dynamo通过分解的预填充和解码操作,动态GPU调度以及LLM-Aware请求路由来增强推理。这些功能可最大程度地提高GPU吞吐量,有效地平衡潜伏期和吞吐量。此外,NVIDIA的推理XFER库(NIXL)加速了数据传输,从而大大减少了响应时间。

有效调度的重要性

有效的调度对于运行多节点推理工作负载至关重要。独立的调度可能会导致部分部署和闲置GPU,从而影响性能。 NVIDIA运行:AI的高级调度功能,包括帮派调度和拓扑感知的位置,确保有效的资源利用并减少延迟。

NVIDIA运行的集成:AI和Dynamo

运行:AI与Dynamo的集成引入了帮派调度,可以实现相互依存的组件的原子部署以及拓扑感知的位置,该位置可以定位组件以最大程度地减少跨节点延迟。这种战略安置可以增强通信吞吐量并减少网络开销,这对于大规模部署至关重要。

NVIDIA RUN:AI和Dynamo入门

为了利用这种集成的全部潜力,用户需要使用NVIDIA运行的Kubernetes群集:AI v2.23,已配置的网络拓扑和必要的访问令牌。 NVIDIA提供了详细的指南,以通过启用这些功能来设置和部署发电机。

结论

通过将NVIDIA Dynamo的有效推理框架与运行:AI的高级调度结合在一起,多节点推理变得更加可预测和有效。这种集成确保了Kubernetes簇的更高的吞吐量,较低的延迟和最佳GPU利用,从而为缩放AI工作负载提供了可靠的解决方案。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: