The news is by your side.

Llama 3.1 405B 借助 NVIDIA H200 GPU 和 NVLink 实现 1.5 倍吞吐量提升

28


张彼得
2024 年 10 月 11 日 01:48

NVIDIA 在并行技术方面的最新进展,使用 NVIDIA H200 Tensor Core GPU 和 NVLink Switch 将 Llama 3.1 405B 吞吐量提高了 1.5 倍,从而提高了 AI 推理性能。




大语言模型 (LLM) 的快速发展持续推动人工智能领域的创新,其中 NVIDIA 处于领先地位。据 NVIDIA 技术博客称,在 NVIDIA 的 H200 Tensor Core GPU 和 NVLink Switch 的推动下,Llama 3.1 405B 模型的吞吐量显着提高了 1.5 倍。

并行技术的进步

这些增强主要归功于优化的并行技术,包括张量和管道并行。这些方法允许多个 GPU 协同工作,有效地共享计算任务。张量并行性侧重于通过在 GPU 之间分配模型层来减少延迟,而管道并行性则通过最大限度地减少开销和利用 NVLink Switch 的高带宽来提高吞吐量。

实际上,这些升级使 NVIDIA HGX H200 系统上吞吐量敏感场景的吞吐量提高了 1.5 倍。该系统利用 NVLink 和 NVSwitch 来促进强大的 GPU 到 GPU 互连,确保推理任务期间的最佳性能。

比较绩效见解

性能比较表明,虽然张量并行性在减少延迟方面表现出色,但管道并行性显着提高了吞吐量。例如,在最小延迟场景中,张量并行性的性能比管道并行性高出 5.6 倍。相反,在最大吞吐量场景中,管道并行性可将效率提高 1.5 倍,凸显其有效处理高带宽通信的能力。

这些发现得到了最近基准测试的支持,包括 MLPerf Inference v4.1 Lla​​ma 2 70B 基准测试的 1.2 倍加速,这是通过 TensorRT-LLM 和 NVSwitch 的软件改进实现的。这些进步凸显了结合并行技术来优化人工智能推理性能的潜力。

NVLink 在最大化性能方面的作用

NVLink 交换机在这些性能提升中发挥着至关重要的作用。每个 NVIDIA Hopper 架构 GPU 都配备了 NVLink,可提供大量带宽,促进管道并行执行期间各阶段之间的高速数据传输。此功能可确保最小化通信开销,从而允许通过额外的 GPU 有效扩展吞吐量。

NVLink 和 NVSwitch 的战略性使用使开发人员能够根据特定的部署需求定制并行配置,平衡计算和容量以实现所需的性能结果。这种灵活性对于旨在在固定延迟限制内最大化吞吐量的 LLM 服务运营商至关重要。

未来展望及持续优化

展望未来,NVIDIA 平台将凭借旨在优化 AI 推理的全面技术堆栈不断进步。 NVIDIA Hopper 架构 GPU、NVLink 和 TensorRT-LLM 软件的集成为开发人员提供了无与伦比的工具,可增强 LLM 性能并降低总体拥有成本。

随着 NVIDIA 不断完善这些技术,AI 创新的潜力不断扩大,有望在生成式 AI 能力方面取得进一步突破。未来的更新将更深入地优化延迟阈值和 GPU 配置,利用 NVSwitch 增强在线场景性能。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻