提升 RTX 上的 LLM 性能：利用 LM Studio 和 GPU 卸载

By Amelia On 10 月 23, 2024

托尼·金
2024 年 10 月 23 日 15:16

探索使用 LM Studio 进行 GPU 卸载如何在 RTX 支持的系统上高效本地执行大型语言模型，从而增强 AI 应用程序的性能。

从起草文档到为数字助理提供支持，大型语言模型 (LLM) 在各种人工智能应用中日益变得至关重要。然而，它们的规模和复杂性通常需要使用强大的数据中心级硬件，这给希望在本地利用这些模型的用户带来了挑战。据 NVIDIA 博客报道，NVIDIA 通过一种称为 GPU 卸载的技术解决了这个问题，该技术使大规模模型能够在本地 RTX AI PC 和工作站上运行。

平衡模型大小和性能

法学硕士通常会在规模、回答质量和表现之间进行权衡。较大的模型往往会提供更准确的输出，但可能运行速度较慢，而较小的模型可以执行速度更快，但质量可能会下降。 GPU 卸载允许用户通过在 GPU 和 CPU 之间分配工作负载来优化这种平衡，从而最大限度地利用可用 GPU 资源，而不受内存限制的限制。

LM Studio 简介

LM Studio 是一款桌面应用程序，可简化个人计算机上 LLM 的托管和定制。它在 llama.cpp 框架上运行，确保对 NVIDIA GeForce RTX 和 NVIDIA RTX GPU 进行全面优化。该应用程序具有用户友好的界面，允许进行广泛的定制，包括确定 GPU 处理模型的量的能力，从而即使在无法将整个模型加载到 VRAM 中的情况下也能提高性能。

优化AI加速

LM Studio 中的 GPU 卸载的工作原理是将模型划分为称为“子图”的较小部分，这些部分会根据需要动态加载到 GPU 上。这种机制对于 GPU VRAM 有限的用户特别有利，使他们能够在具有低端 GPU 的系统上运行 Gemma-2-27B 等大量模型，同时仍能获得显着的性能提升。

例如，Gemma-2-27B 模型在 GeForce RTX 4090 等 GPU 上完全加速时需要大约 19GB 的 VRAM，但在 GPU 性能较低的系统上仍然可以通过 GPU 卸载来有效利用。与仅使用 CPU 的操作相比，这种灵活性使用户能够实现更快的处理速度，随着 GPU 使用水平的提高而吞吐量的提高就证明了这一点。

实现最佳平衡

通过利用 GPU 卸载，LM Studio 使用户能够释放 RTX AI PC 上高性能 LLM 的潜力，从而使高级 AI 功能更容易获得。这一进步支持从生成式人工智能到客户服务自动化的广泛应用，无需持续的互联网连接或将敏感数据暴露给外部服务器。

对于希望探索这些功能的用户，LM Studio 提供了在本地试验 RTX 加速的 LLM 的机会，为开发人员和 AI 爱好者提供了一个强大的平台，以突破本地 AI 部署的可能性界限。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻