NVIDIA 利用 TensorRT-LLM 增强 Llama 3.3 70B 模型性能

By Amelia On 12 月 18, 2024

丽贝卡·摩恩
2024 年 12 月 17 日 17:14

了解 NVIDIA 的 TensorRT-LLM 如何使用先进的推测解码技术将 Llama 3.3 70B 模型推理吞吐量提高 3 倍。

Meta 的 Llama 系列最新成员 Llama 3.3 70B 型号凭借 NVIDIA 的 TensorRT-LLM 实现了显着的性能增强。据 NVIDIA 称，此次合作旨在优化大型语言模型 (LLM) 的推理吞吐量，将其提升多达三倍。

使用 TensorRT-LLM 进行高级优化

NVIDIA TensorRT-LLM 采用多种创新技术来最大限度地提高 Llama 3.3 70B 的性能。关键优化包括动态批处理、KV 缓存和自定义 FP8 量化。这些技术旨在提高 LLM 服务的效率、减少延迟并提高 GPU 利用率。

动态批处理允许同时处理多个请求，从而优化服务吞吐量。通过在上下文和生成阶段交错请求，它可以最大限度地减少延迟并提高 GPU 利用率。此外，KV 缓存机制通过存储先前令牌的键值元素来节省计算资源，尽管它需要仔细管理内存资源。

推测性解码是加速 LLM 推理的强大方法。它允许生成未来标记的多个序列，这些序列比自回归解码中的单个标记更有效地处理。 TensorRT-LLM 支持各种推测解码技术，包括草稿目标、Medusa、Eagle 和前向解码。

正如使用 NVIDIA H200 Tensor Core GPU 进行的内部测量所证明的那样，这些技术显着提高了吞吐量。例如，使用草稿模型将吞吐量从每秒 51.14 个令牌增加到每秒 181.74 个令牌，实现了 3.55 倍的加速。

为了实现这些性能提升，NVIDIA 提供了一个全面的设置，用于将草案目标推测解码与 Llama 3.3 70B 模型集成。这包括下载模型检查点、安装 TensorRT-LLM 以及将模型检查点编译到优化的 TensorRT 引擎中。

NVIDIA 对推进 AI 技术的承诺延伸到与 Meta 和其他合作伙伴的合作，旨在增强开放社区 AI 模型。 TensorRT-LLM 优化不仅提高了吞吐量，还降低了能源成本并改善了总体拥有成本，使人工智能在各种基础设施上的部署更加高效。

有关设置过程和其他优化的更多信息，请访问 NVIDIA 官方博客。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻