NVIDIA GH200 NVL32：通过 NVLink 开关彻底改变首次令牌时间性能

By Amelia On 9 月 28, 2024

张彼得
2024 年 9 月 27 日 09:43

NVIDIA 的 GH200 NVL32 系统在大型语言模型的首次标记时间性能方面取得了显着改进，从而增强了实时 AI 应用程序。

NVIDIA 最新的 GH200 NVL32 系统展示了首次令牌时间 (TTFT) 性能的显着飞跃，满足了 Llama 3.1 和 3.2 等大型语言模型 (LLM) 日益增长的需求。据 NVIDIA 技术博客称，该系统将对交互式语音机器人和编码助手等实时应用产生重大影响。

首次令牌时间 (TTFT) 的重要性

TTFT 是法学硕士处理用户提示并开始生成响应所需的时间。随着 LLM 的复杂性不断增加，Llama 3.1 等模型现在具有数千亿个参数，对更快 TTFT 的需求变得至关重要。对于需要立即响应的应用程序尤其如此，例如人工智能驱动的客户支持和数字助理。

NVIDIA 的 GH200 NVL32 系统由 32 个 NVIDIA GH200 Grace Hopper 超级芯片提供支持，并通过 NVLink 交换机系统连接，旨在满足这些需求。该系统利用 TensorRT-LLM 改进为长上下文推理提供出色的 TTFT，使其成为最新 Llama 3.1 模型的理想选择。

实时用例和性能

人工智能语音机器人和数字助理等应用需要几百毫秒范围内的 TTFT 来模拟自然的、类人的对话。例如，半秒的 TTFT 比 5 秒的 TTFT 更加用户友好。快速 TTFT 对于依赖最新信息的服务尤其重要，例如使用检索增强生成 (RAG) 来通过相关数据增强 LLM 提示的代理工作流程。

NVIDIA GH200 NVL32 系统为 Llama 3.1 模型实现了最快的已发布 TTFT，即使上下文长度很长。这种性能对于需要快速、准确响应的实时应用程序至关重要。

技术指标及成果

GH200 NVL32 系统连接 32 个 NVIDIA GH200 Grace Hopper 超级芯片，每个芯片通过 NVLink-C2C 结合了 NVIDIA Grace CPU 和 NVIDIA Hopper GPU。此设置可实现高带宽、低延迟通信，这对于最小化同步时间和最大化计算性能至关重要。该系统可提供高达 127 petaFLOPs 的峰值 FP8 AI 计算，显着降低具有长上下文的高要求模型的 TTFT。

例如，对于输入序列长度为 32,768 个令牌的 Llama 3.1 70B，系统可以实现仅为 472 毫秒的 TTFT。即使对于 Llama 3.1 405B 等更复杂的模型，系统也可以使用 32,768 个令牌输入提供约 1.6 秒的 TTFT。

推理的持续创新

随着服务技术、运行时优化等方面的进步，推理仍然是创新的温床。飞行中批处理、推测性解码和 FlashAttention 等技术可实现更高效、更具成本效益的强大 AI 模型部署。

NVIDIA 的加速计算平台得到了庞大的开发者生态系统和广泛的 GPU 安装基础的支持，处于这些创新的前沿。该平台与CUDA编程模型的兼容性以及与开发者社区的深入参与确保了AI能力的快速进步。

前景

展望未来，NVIDIA Blackwell GB200 NVL72 平台有望取得更大的进步。凭借第二代 Transformer Engine 和第五代 Tensor Core，Blackwell 可提供高达 20 petaFLOPs 的 FP4 AI 计算，显着提高性能。该平台的第五代 NVLink 提供 1,800 GB/s 的 GPU 到 GPU 带宽，将 NVLink 域扩展到 72 个 GPU。

随着人工智能模型的不断发展和代理工作流程变得更加普遍，对 GH200 NVL32 和 Blackwell GB200 NVL72 等高性能、低延迟计算解决方案的需求只会增加。 NVIDIA 的持续创新确保该公司始终处于人工智能和加速计算领域的前沿。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻