路易莎·克劳福德
2024年8月16日 11:33
NVIDIA NIM 微服务优化了大型语言模型的吞吐量和延迟,从而提高了 AI 应用程序的效率和用户体验。
据 NVIDIA 技术博客报道,随着大型语言模型 (LLM) 继续以前所未有的速度发展,企业越来越专注于构建生成式 AI 应用程序,以最大限度地提高吞吐量并最大限度地降低延迟。这些优化对于降低运营成本和提供卓越的用户体验至关重要。
衡量成本效率的关键指标
当用户向 LLM 发送请求时,系统会处理该请求并通过输出一系列令牌来生成响应。通常会同时处理多个请求以最大限度地减少等待时间。 吞吐量 衡量单位时间内成功操作的数量,例如每秒的令牌数,这对于确定企业如何同时处理用户请求至关重要。
延迟以第一个令牌时间 (TTFT) 和令牌间延迟 (ITL) 来衡量,表示数据传输之前或之间的延迟。较低的延迟可确保流畅的用户体验和高效的系统性能。TTFT 测量模型在收到请求后生成第一个令牌所需的时间,而 ITL 指的是生成连续令牌之间的间隔。
平衡吞吐量和延迟
企业必须根据并发请求数和延迟预算(即最终用户可以接受的延迟量)来平衡吞吐量和延迟。增加并发请求数可以提高吞吐量,但也可能增加单个请求的延迟。相反,通过优化并发请求数,保持一定的延迟预算可以最大限度地提高吞吐量。
随着并发请求数量的增加,企业可以部署更多 GPU 来维持吞吐量和用户体验。例如,在高峰时段处理大量购物请求的聊天机器人需要多个 GPU 才能保持最佳性能。
NVIDIA NIM 如何优化吞吐量和延迟
NVIDIA NIM 微服务提供了一种保持高吞吐量和低延迟的解决方案。NIM 通过运行时细化、智能模型表示以及定制的吞吐量和延迟配置文件等技术来优化性能。NVIDIA TensorRT-LLM 通过调整 GPU 数量和批次大小等参数进一步增强模型性能。
NIM 是 NVIDIA AI Enterprise 套件的一部分,经过大量调整以确保每个模型都具有高性能。张量并行和实时批处理等技术可并行处理多个请求,从而最大限度地提高 GPU 利用率并提高吞吐量,同时减少延迟。
NVIDIA NIM 性能
使用 NIM 后,企业报告称吞吐量和延迟显著改善。例如,与最佳开源替代方案相比,NVIDIA Llama 3.1 8B Instruct NIM 的吞吐量提高了 2.5 倍,TTFT 速度提高了 4 倍,ITL 速度提高了 2.2 倍。现场演示显示,NIM On 的输出速度比 NIM Off 快 2.4 倍,证明了 NIM 优化技术带来的效率提升。
NVIDIA NIM 为企业 AI 树立了新标准,提供无与伦比的性能、易用性和成本效益。希望增强客户服务、简化运营或在行业内进行创新的企业可以从 NIM 强大、可扩展且安全的解决方案中受益。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news