The news is by your side.

NVIDIA 使用 TensorRT 模型优化器增强 Llama 3.1 405B 性能

31


劳伦斯·詹格
2024年8月29日 16:10

NVIDIA 的 TensorRT 模型优化器显著提升了 Meta 的 Llama 3.1 405B 大型语言模型在 H200 GPU 上的性能。




据 NVIDIA 技术博客报道,得益于 NVIDIA 的 TensorRT 模型优化器,Meta 的 Llama 3.1 405B 大型语言模型 (LLM) 正在实现新的性能水平。在 NVIDIA H200 GPU 上运行时,这些增强功能使吞吐量提高了 1.44 倍。

使用 TensorRT-LLM 实现出色的 Llama 3.1 405B 推理吞吐量

自该模型发布以来,TensorRT-LLM 已经为 Llama 3.1 405B 提供了出色的推理吞吐量。这是通过各种优化实现的,包括动态批处理、KV 缓存和优化的注意内核。这些技术加速了推理性能,同时保持了较低的精度计算。

TensorRT-LLM 增加了对官方 Llama FP8 量化配方的支持,该配方可计算静态和动态缩放因子以保持最大精度。此外,用户定义的内核(例如来自 FBGEMM 的矩阵乘法)可通过在编译时插入网络图的插件进行优化。

使用 TensorRT 模型优化器将性能提升高达 1.44 倍

NVIDIA 的自定义 FP8 训练后量化 (PTQ) 配方可通过 TensorRT 模型优化器库获得,它可增强 Llama 3.1 405B 吞吐量并减少延迟,同时不会牺牲准确性。此配方结合了 FP8 KV 缓存量化和自注意力静态量化,从而降低了推理计算开销。

表 1 展示了最大吞吐量性能,表明 8-GPU HGX H200 系统上各种输入和输出序列长度的性能均有显著提升。该系统配备八个 NVIDIA H200 Tensor Core GPU,每个 GPU 配备 141 GB HBM3e 内存和四个 NVLink 交换机,可提供 900 GB/s 的 GPU 到 GPU 带宽。






最大吞吐量性能 – 输出令牌/秒
8 个 NVIDIA H200 Tensor Core GPU
输入|输出序列长度 2,048 | 128 32,768 | 2,048 120,000 | 2,048
TensorRT 模型优化器 FP8 463.1 320.1 71.5
官方骆驼 FP8 食谱 399.9 230.8 49.6
加速 1.16x 1.39x 1.44x

表 1. Llama 3.1 405B 的最大吞吐量性能(采用 NVIDIA 内部测量)

类似地,表 2 显示了使用相同输入和输出序列长度的最小延迟性能。






批次大小 = 1 性能 – 输出令牌/秒
8 个 NVIDIA H200 Tensor Core GPU
输入|输出序列长度 2,048 | 128 32,768 | 2,048 120,000 | 2,048
TensorRT 模型优化器 FP8 49.6 44.2 27.2
官方骆驼 FP8 食谱 37.4 33.1 22.8
加速 1.33x 1.33x 1.19x

表 2. Llama 3.1 405B 的最低延迟性能(采用 NVIDIA 内部测量)

这些结果表明,配备 TensorRT-LLM 和 TensorRT 模型优化器的 H200 GPU 在延迟优化和吞吐量优化场景中均能提供卓越的性能。TensorRT 模型优化器 FP8 配方在大规模多任务语言理解 (MMLU) 和 MT-Bench 基准测试中也实现了与官方 Llama 3.1 FP8 配方相当的准确度。

仅在两块配备 INT4 AWQ 的 H200 GPU 上安装 Llama 3.1 405B

对于硬件资源受限的开发人员,TensorRT 模型优化器中的 INT4 AWQ 技术可以压缩模型,让 Llama 3.1 405B 仅安装在两个 H200 GPU 上。此方法通过将权重压缩为 4 位整数并使用 FP16 对激活进行编码,显著减少了所需的内存占用。

表 4 和表 5 显示了最大吞吐量和最小延迟性能测量结果,表明 INT4 AWQ 方法提供的准确度分数与 Meta 的 Llama 3.1 官方 FP8 方案相当。




最大吞吐量性能 – 输出令牌/秒
2 个 NVIDIA H200 Tensor Core GPU
输入|输出序列长度 2,048 | 128 32,768 | 2,048 60,000 | 2,048
TensorRT 模型优化器 INT4 AWQ 75.6 28.7 16.2

表 4. Llama 3.1 405B 的最大吞吐量性能(采用 NVIDIA 内部测量)




批次大小 = 1 性能 – 输出令牌/秒
2 个 NVIDIA H200 Tensor Core GPU
输入|输出序列长度 2,048 | 128 32,768 | 2,048 60,000 | 2,048
TensorRT 模型优化器 INT4 AWQ 21.6 18.7 12.8

表 5. Llama 3.1 405B 的最低延迟性能(采用 NVIDIA 内部测量)

NVIDIA 在 TensorRT 模型优化器和 TensorRT-LLM 方面的进步为提高运行 Llama 3.1 405B 等大型语言模型的性能和效率铺平了道路。这些改进为开发人员提供了更大的灵活性和成本效益,无论他们拥有丰富的硬件资源还是更受限制的环境。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news