约尔格·希勒
2024 年 10 月 29 日 02:12
NVIDIA 表示,NVIDIA GH200 Grace Hopper 超级芯片可将 Llama 模型的推理速度提高 2 倍,从而在不影响系统吞吐量的情况下增强用户交互性。
据 (NVIDIA) 报道,NVIDIA GH200 Grace Hopper 超级芯片将与 Llama 模型的多轮交互的推理速度提高了一倍,从而在 AI 社区掀起波澜(这一进步解决了在部署大型应用程序时平衡用户交互性与系统吞吐量的长期挑战)语言模型(LLM)。
通过 KV 缓存卸载增强性能
部署 Llama 3 70B 模型等 LLM 通常需要大量计算资源,尤其是在输出序列的初始生成期间。 NVIDIA GH200 使用键值 (KV) 缓存卸载到 CPU 内存,显着减轻了这种计算负担。与传统的基于 x86 的 NVIDIA H100 服务器相比,该方法可以重用之前计算的数据,从而最大限度地减少重新计算的需要,并将首次令牌时间 (TTFT) 提高多达 14 倍。
解决多轮交互挑战
KV 缓存卸载在需要多轮交互的场景中特别有用,例如内容摘要和代码生成。通过将KV缓存存储在CPU内存中,多个用户可以与相同的内容进行交互,而无需重新计算缓存,从而优化了成本和用户体验。这种方法正在将生成人工智能功能集成到其平台中的内容提供商中获得关注。
克服 PCIe 瓶颈
NVIDIA GH200 Superchip 利用 NVLink-C2C 技术解决了与传统 PCIe 接口相关的性能问题,该技术在 CPU 和 GPU 之间提供了惊人的 900 GB/s 带宽。这比标准 PCIe Gen5 通道高七倍,可实现更高效的 KV 缓存卸载并实现实时用户体验。
广泛采用和未来前景
目前,NVIDIA GH200 为全球九台超级计算机提供支持,并可通过多家系统制造商和云提供商购买。它能够在无需额外基础设施投资的情况下提高推理速度,这使其成为寻求优化 LLM 部署的数据中心、云服务提供商和 AI 应用程序开发人员的有吸引力的选择。
GH200的先进内存架构不断突破AI推理能力的界限,为大型语言模型的部署设立了新标准。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻