NVIDIA 使用 TensorRT 模型优化器增强 Llama 3.1 405B 性能

By Amelia On 8 月 30, 2024

劳伦斯·詹格
2024年8月29日 16:10

NVIDIA 的 TensorRT 模型优化器显著提升了 Meta 的 Llama 3.1 405B 大型语言模型在 H200 GPU 上的性能。

据 NVIDIA 技术博客报道，得益于 NVIDIA 的 TensorRT 模型优化器，Meta 的 Llama 3.1 405B 大型语言模型 (LLM) 正在实现新的性能水平。在 NVIDIA H200 GPU 上运行时，这些增强功能使吞吐量提高了 1.44 倍。

使用 TensorRT-LLM 实现出色的 Llama 3.1 405B 推理吞吐量

自该模型发布以来，TensorRT-LLM 已经为 Llama 3.1 405B 提供了出色的推理吞吐量。这是通过各种优化实现的，包括动态批处理、KV 缓存和优化的注意内核。这些技术加速了推理性能，同时保持了较低的精度计算。

TensorRT-LLM 增加了对官方 Llama FP8 量化配方的支持，该配方可计算静态和动态缩放因子以保持最大精度。此外，用户定义的内核（例如来自 FBGEMM 的矩阵乘法）可通过在编译时插入网络图的插件进行优化。

使用 TensorRT 模型优化器将性能提升高达 1.44 倍

NVIDIA 的自定义 FP8 训练后量化 (PTQ) 配方可通过 TensorRT 模型优化器库获得，它可增强 Llama 3.1 405B 吞吐量并减少延迟，同时不会牺牲准确性。此配方结合了 FP8 KV 缓存量化和自注意力静态量化，从而降低了推理计算开销。

表 1 展示了最大吞吐量性能，表明 8-GPU HGX H200 系统上各种输入和输出序列长度的性能均有显著提升。该系统配备八个 NVIDIA H200 Tensor Core GPU，每个 GPU 配备 141 GB HBM3e 内存和四个 NVLink 交换机，可提供 900 GB/s 的 GPU 到 GPU 带宽。

最大吞吐量性能 – 输出令牌/秒 8 个 NVIDIA H200 Tensor Core GPU
输入\|输出序列长度	2,048 \| 128	32,768 \| 2,048	120,000 \| 2,048
TensorRT 模型优化器 FP8	463.1	320.1	71.5
官方骆驼 FP8 食谱	399.9	230.8	49.6
加速	1.16x	1.39x	1.44x

表 1. Llama 3.1 405B 的最大吞吐量性能（采用 NVIDIA 内部测量）

类似地，表 2 显示了使用相同输入和输出序列长度的最小延迟性能。

批次大小 = 1 性能 – 输出令牌/秒 8 个 NVIDIA H200 Tensor Core GPU
输入\|输出序列长度	2,048 \| 128	32,768 \| 2,048	120,000 \| 2,048
TensorRT 模型优化器 FP8	49.6	44.2	27.2
官方骆驼 FP8 食谱	37.4	33.1	22.8
加速	1.33x	1.33x	1.19x

表 2. Llama 3.1 405B 的最低延迟性能（采用 NVIDIA 内部测量）

这些结果表明，配备 TensorRT-LLM 和 TensorRT 模型优化器的 H200 GPU 在延迟优化和吞吐量优化场景中均能提供卓越的性能。TensorRT 模型优化器 FP8 配方在大规模多任务语言理解 (MMLU) 和 MT-Bench 基准测试中也实现了与官方 Llama 3.1 FP8 配方相当的准确度。

仅在两块配备 INT4 AWQ 的 H200 GPU 上安装 Llama 3.1 405B

对于硬件资源受限的开发人员，TensorRT 模型优化器中的 INT4 AWQ 技术可以压缩模型，让 Llama 3.1 405B 仅安装在两个 H200 GPU 上。此方法通过将权重压缩为 4 位整数并使用 FP16 对激活进行编码，显著减少了所需的内存占用。

表 4 和表 5 显示了最大吞吐量和最小延迟性能测量结果，表明 INT4 AWQ 方法提供的准确度分数与 Meta 的 Llama 3.1 官方 FP8 方案相当。

最大吞吐量性能 – 输出令牌/秒 2 个 NVIDIA H200 Tensor Core GPU
输入\|输出序列长度	2,048 \| 128	32,768 \| 2,048	60,000 \| 2,048
TensorRT 模型优化器 INT4 AWQ	75.6	28.7	16.2

表 4. Llama 3.1 405B 的最大吞吐量性能（采用 NVIDIA 内部测量）

批次大小 = 1 性能 – 输出令牌/秒 2 个 NVIDIA H200 Tensor Core GPU
输入\|输出序列长度	2,048 \| 128	32,768 \| 2,048	60,000 \| 2,048
TensorRT 模型优化器 INT4 AWQ	21.6	18.7	12.8

表 5. Llama 3.1 405B 的最低延迟性能（采用 NVIDIA 内部测量）

NVIDIA 在 TensorRT 模型优化器和 TensorRT-LLM 方面的进步为提高运行 Llama 3.1 405B 等大型语言模型的性能和效率铺平了道路。这些改进为开发人员提供了更大的灵活性和成本效益，无论他们拥有丰富的硬件资源还是更受限制的环境。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

405B AI blockchain Crypto Llama news Nvidia TensorRT