NVIDIA NIM 微服务大规模提升 LLM 推理效率

By Amelia On 8 月 17, 2024

路易莎·克劳福德
2024年8月16日 11:33

NVIDIA NIM 微服务优化了大型语言模型的吞吐量和延迟，从而提高了 AI 应用程序的效率和用户体验。

据 NVIDIA 技术博客报道，随着大型语言模型 (LLM) 继续以前所未有的速度发展，企业越来越专注于构建生成式 AI 应用程序，以最大限度地提高吞吐量并最大限度地降低延迟。这些优化对于降低运营成本和提供卓越的用户体验至关重要。

衡量成本效率的关键指标

当用户向 LLM 发送请求时，系统会处理该请求并通过输出一系列令牌来生成响应。通常会同时处理多个请求以最大限度地减少等待时间。 吞吐量 衡量单位时间内成功操作的数量，例如每秒的令牌数，这对于确定企业如何同时处理用户请求至关重要。

延迟以第一个令牌时间 (TTFT) 和令牌间延迟 (ITL) 来衡量，表示数据传输之前或之间的延迟。较低的延迟可确保流畅的用户体验和高效的系统性能。TTFT 测量模型在收到请求后生成第一个令牌所需的时间，而 ITL 指的是生成连续令牌之间的间隔。

平衡吞吐量和延迟

企业必须根据并发请求数和延迟预算（即最终用户可以接受的延迟量）来平衡吞吐量和延迟。增加并发请求数可以提高吞吐量，但也可能增加单个请求的延迟。相反，通过优化并发请求数，保持一定的延迟预算可以最大限度地提高吞吐量。

随着并发请求数量的增加，企业可以部署更多 GPU 来维持吞吐量和用户体验。例如，在高峰时段处理大量购物请求的聊天机器人需要多个 GPU 才能保持最佳性能。

NVIDIA NIM 如何优化吞吐量和延迟

NVIDIA NIM 微服务提供了一种保持高吞吐量和低延迟的解决方案。NIM 通过运行时细化、智能模型表示以及定制的吞吐量和延迟配置文件等技术来优化性能。NVIDIA TensorRT-LLM 通过调整 GPU 数量和批次大小等参数进一步增强模型性能。

NIM 是 NVIDIA AI Enterprise 套件的一部分，经过大量调整以确保每个模型都具有高性能。张量并行和实时批处理等技术可并行处理多个请求，从而最大限度地提高 GPU 利用率并提高吞吐量，同时减少延迟。

NVIDIA NIM 性能

使用 NIM 后，企业报告称吞吐量和延迟显著改善。例如，与最佳开源替代方案相比，NVIDIA Llama 3.1 8B Instruct NIM 的吞吐量提高了 2.5 倍，TTFT 速度提高了 4 倍，ITL 速度提高了 2.2 倍。现场演示显示，NIM On 的输出速度比 NIM Off 快 2.4 倍，证明了 NIM 优化技术带来的效率提升。

NVIDIA NIM 为企业 AI 树立了新标准，提供无与伦比的性能、易用性和成本效益。希望增强客户服务、简化运营或在行业内进行创新的企业可以从 NIM 强大、可扩展且安全的解决方案中受益。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

AI blockchain Crypto LLM news NIM Nvidia 微服务大规模提升