The news is by your side.

提升 RTX 上的 LLM 性能:利用 LM Studio 和 GPU 卸载

207


托尼·金
2024 年 10 月 23 日 15:16

探索使用 LM Studio 进行 GPU 卸载如何在 RTX 支持的系统上高效本地执行大型语言模型,从而增强 AI 应用程序的性能。




从起草文档到为数字助理提供支持,大型​​语言模型 (LLM) 在各种人工智能应用中日益变得至关重要。然而,它们的规模和复杂性通常需要使用强大的数据中心级硬件,这给希望在本地利用这些模型的用户带来了挑战。据 NVIDIA 博客报道,NVIDIA 通过一种称为 GPU 卸载的技术解决了这个问题,该技术使大规模模型能够在本地 RTX AI PC 和工作站上运行。

平衡模型大小和性能

法学硕士通常会在规模、回答质量和表现之间进行权衡。较大的模型往往会提供更准确的输出,但可能运行速度较慢,而较小的模型可以执行速度更快,但质量可能会下降。 GPU 卸载允许用户通过在 GPU 和 CPU 之间分配工作负载来优化这种平衡,从而最大限度地利用可用 GPU 资源,而不受内存限制的限制。

LM Studio 简介

LM Studio 是一款桌面应用程序,可简化个人计算机上 LLM 的托管和定制。它在 llama.cpp 框架上运行,确保对 NVIDIA GeForce RTX 和 NVIDIA RTX GPU 进行全面优化。该应用程序具有用户友好的界面,允许进行广泛的定制,包括确定 GPU 处理模型的量的能力,从而即使在无法将整个模型加载到 VRAM 中的情况下也能提高性能。

优化AI加速

LM Studio 中的 GPU 卸载的工作原理是将模型划分为称为“子图”的较小部分,这些部分会根据需要动态加载到 GPU 上。这种机制对于 GPU VRAM 有限的用户特别有利,使他们能够在具有低端 GPU 的系统上运行 Gemma-2-27B 等大量模型,同时仍能获得显着的性能提升。

例如,Gemma-2-27B 模型在 GeForce RTX 4090 等 GPU 上完全加速时需要大约 19GB 的 VRAM,但在 GPU 性能较低的系统上仍然可以通过 GPU 卸载来有效利用。与仅使用 CPU 的操作相比,这种灵活性使用户能够实现更快的处理速度,随着 GPU 使用水平的提高而吞吐量的提高就证明了这一点。

实现最佳平衡

通过利用 GPU 卸载,LM Studio 使用户能够释放 RTX AI PC 上高性能 LLM 的潜力,从而使高级 AI 功能更容易获得。这一进步支持从生成式人工智能到客户服务自动化的广泛应用,无需持续的互联网连接或将敏感数据暴露给外部服务器。

对于希望探索这些功能的用户,LM Studio 提供了在本地试验 RTX 加速的 LLM 的机会,为开发人员和 AI 爱好者提供了一个强大的平台,以突破本地 AI 部署的可能性界限。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻