Llama 3.1 405B 借助 NVIDIA H200 GPU 和 NVLink 实现 1.5 倍吞吐量提升

By Amelia On 10 月 11, 2024

张彼得
2024 年 10 月 11 日 01:48

NVIDIA 在并行技术方面的最新进展，使用 NVIDIA H200 Tensor Core GPU 和 NVLink Switch 将 Llama 3.1 405B 吞吐量提高了 1.5 倍，从而提高了 AI 推理性能。

大语言模型 (LLM) 的快速发展持续推动人工智能领域的创新，其中 NVIDIA 处于领先地位。据 NVIDIA 技术博客称，在 NVIDIA 的 H200 Tensor Core GPU 和 NVLink Switch 的推动下，Llama 3.1 405B 模型的吞吐量显着提高了 1.5 倍。

并行技术的进步

这些增强主要归功于优化的并行技术，包括张量和管道并行。这些方法允许多个 GPU 协同工作，有效地共享计算任务。张量并行性侧重于通过在 GPU 之间分配模型层来减少延迟，而管道并行性则通过最大限度地减少开销和利用 NVLink Switch 的高带宽来提高吞吐量。

实际上，这些升级使 NVIDIA HGX H200 系统上吞吐量敏感场景的吞吐量提高了 1.5 倍。该系统利用 NVLink 和 NVSwitch 来促进强大的 GPU 到 GPU 互连，确保推理任务期间的最佳性能。

性能比较表明，虽然张量并行性在减少延迟方面表现出色，但管道并行性显着提高了吞吐量。例如，在最小延迟场景中，张量并行性的性能比管道并行性高出 5.6 倍。相反，在最大吞吐量场景中，管道并行性可将效率提高 1.5 倍，凸显其有效处理高带宽通信的能力。

这些发现得到了最近基准测试的支持，包括 MLPerf Inference v4.1 Llama 2 70B 基准测试的 1.2 倍加速，这是通过 TensorRT-LLM 和 NVSwitch 的软件改进实现的。这些进步凸显了结合并行技术来优化人工智能推理性能的潜力。

NVLink 交换机在这些性能提升中发挥着至关重要的作用。每个 NVIDIA Hopper 架构 GPU 都配备了 NVLink，可提供大量带宽，促进管道并行执行期间各阶段之间的高速数据传输。此功能可确保最小化通信开销，从而允许通过额外的 GPU 有效扩展吞吐量。

NVLink 和 NVSwitch 的战略性使用使开发人员能够根据特定的部署需求定制并行配置，平衡计算和容量以实现所需的性能结果。这种灵活性对于旨在在固定延迟限制内最大化吞吐量的 LLM 服务运营商至关重要。

展望未来，NVIDIA 平台将凭借旨在优化 AI 推理的全面技术堆栈不断进步。 NVIDIA Hopper 架构 GPU、NVLink 和 TensorRT-LLM 软件的集成为开发人员提供了无与伦比的工具，可增强 LLM 性能并降低总体拥有成本。

随着 NVIDIA 不断完善这些技术，AI 创新的潜力不断扩大，有望在生成式 AI 能力方面取得进一步突破。未来的更新将更深入地优化延迟阈值和 GPU 配置，利用 NVSwitch 增强在线场景性能。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻