劳伦斯·詹格
2024年8月29日 16:10
NVIDIA 的 TensorRT 模型优化器显著提升了 Meta 的 Llama 3.1 405B 大型语言模型在 H200 GPU 上的性能。
据 NVIDIA 技术博客报道,得益于 NVIDIA 的 TensorRT 模型优化器,Meta 的 Llama 3.1 405B 大型语言模型 (LLM) 正在实现新的性能水平。在 NVIDIA H200 GPU 上运行时,这些增强功能使吞吐量提高了 1.44 倍。
使用 TensorRT-LLM 实现出色的 Llama 3.1 405B 推理吞吐量
自该模型发布以来,TensorRT-LLM 已经为 Llama 3.1 405B 提供了出色的推理吞吐量。这是通过各种优化实现的,包括动态批处理、KV 缓存和优化的注意内核。这些技术加速了推理性能,同时保持了较低的精度计算。
TensorRT-LLM 增加了对官方 Llama FP8 量化配方的支持,该配方可计算静态和动态缩放因子以保持最大精度。此外,用户定义的内核(例如来自 FBGEMM 的矩阵乘法)可通过在编译时插入网络图的插件进行优化。
使用 TensorRT 模型优化器将性能提升高达 1.44 倍
NVIDIA 的自定义 FP8 训练后量化 (PTQ) 配方可通过 TensorRT 模型优化器库获得,它可增强 Llama 3.1 405B 吞吐量并减少延迟,同时不会牺牲准确性。此配方结合了 FP8 KV 缓存量化和自注意力静态量化,从而降低了推理计算开销。
表 1 展示了最大吞吐量性能,表明 8-GPU HGX H200 系统上各种输入和输出序列长度的性能均有显著提升。该系统配备八个 NVIDIA H200 Tensor Core GPU,每个 GPU 配备 141 GB HBM3e 内存和四个 NVLink 交换机,可提供 900 GB/s 的 GPU 到 GPU 带宽。
最大吞吐量性能 – 输出令牌/秒 8 个 NVIDIA H200 Tensor Core GPU |
|||
输入|输出序列长度 | 2,048 | 128 | 32,768 | 2,048 | 120,000 | 2,048 |
TensorRT 模型优化器 FP8 | 463.1 | 320.1 | 71.5 |
官方骆驼 FP8 食谱 | 399.9 | 230.8 | 49.6 |
加速 | 1.16x | 1.39x | 1.44x |
类似地,表 2 显示了使用相同输入和输出序列长度的最小延迟性能。
批次大小 = 1 性能 – 输出令牌/秒 8 个 NVIDIA H200 Tensor Core GPU |
|||
输入|输出序列长度 | 2,048 | 128 | 32,768 | 2,048 | 120,000 | 2,048 |
TensorRT 模型优化器 FP8 | 49.6 | 44.2 | 27.2 |
官方骆驼 FP8 食谱 | 37.4 | 33.1 | 22.8 |
加速 | 1.33x | 1.33x | 1.19x |
这些结果表明,配备 TensorRT-LLM 和 TensorRT 模型优化器的 H200 GPU 在延迟优化和吞吐量优化场景中均能提供卓越的性能。TensorRT 模型优化器 FP8 配方在大规模多任务语言理解 (MMLU) 和 MT-Bench 基准测试中也实现了与官方 Llama 3.1 FP8 配方相当的准确度。
仅在两块配备 INT4 AWQ 的 H200 GPU 上安装 Llama 3.1 405B
对于硬件资源受限的开发人员,TensorRT 模型优化器中的 INT4 AWQ 技术可以压缩模型,让 Llama 3.1 405B 仅安装在两个 H200 GPU 上。此方法通过将权重压缩为 4 位整数并使用 FP16 对激活进行编码,显著减少了所需的内存占用。
表 4 和表 5 显示了最大吞吐量和最小延迟性能测量结果,表明 INT4 AWQ 方法提供的准确度分数与 Meta 的 Llama 3.1 官方 FP8 方案相当。
最大吞吐量性能 – 输出令牌/秒 2 个 NVIDIA H200 Tensor Core GPU |
|||
输入|输出序列长度 | 2,048 | 128 | 32,768 | 2,048 | 60,000 | 2,048 |
TensorRT 模型优化器 INT4 AWQ | 75.6 | 28.7 | 16.2 |
批次大小 = 1 性能 – 输出令牌/秒 2 个 NVIDIA H200 Tensor Core GPU |
|||
输入|输出序列长度 | 2,048 | 128 | 32,768 | 2,048 | 60,000 | 2,048 |
TensorRT 模型优化器 INT4 AWQ | 21.6 | 18.7 | 12.8 |
NVIDIA 在 TensorRT 模型优化器和 TensorRT-LLM 方面的进步为提高运行 Llama 3.1 405B 等大型语言模型的性能和效率铺平了道路。这些改进为开发人员提供了更大的灵活性和成本效益,无论他们拥有丰富的硬件资源还是更受限制的环境。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news