提升 LLM 性能:NVIDIA RTX 系统上的 llama.cpp


杰西·埃利斯
2024 年 10 月 2 日 12:39

NVIDIA 通过 llama.cpp 增强 RTX GPU 上的 LLM 性能,为开发人员提供高效的 AI 解决方案。




据 NVIDIA 技术博客称,适用于 Windows PC 平台的 NVIDIA RTX AI 为应用程序开发人员提供了一个包含数千个开源模型的强大生态系统。其中,llama.cpp 已成为拥有超过 65K GitHub star 的流行工具。这个轻量级、高效的框架于 2023 年发布,支持跨各种硬件平台(包括 RTX PC)的大型语言模型 (LLM) 推理。

llama.cpp 概述

法学硕士已展现出解锁新用例的潜力,但其庞大的内存和计算需求给开发人员带来了挑战。 llama.cpp 通过提供一系列功能来优化模型性能并确保在不同硬件上的高效部署来解决这些问题。它利用 ggml 张量库进行机器学习,无需外部依赖即可跨平台使用。模型数据以名为 GGUF 的自定义文件格式部署,该文件格式由 llama.cpp 贡献者设计。

开发人员可以从数千个预打包模型中进行选择,涵盖各种高质量量化。不断壮大的开源社区积极为 llama.cpp 和 ggml 项目的开发做出贡献。

NVIDIA RTX 上的加速性能

NVIDIA 正在不断增强 RTX GPU 上的 llama.cpp 性能。主要贡献包括吞吐量性能的改进。例如,内部测量显示,使用 Llama 3 8B 模型,NVIDIA RTX 4090 GPU 可以实现每秒约 150 个令牌,输入序列长度为 100 个令牌,输出序列长度为 100 个令牌。

要构建针对具有 CUDA 后端的 NVIDIA GPU 优化的 llama.cpp 库,开发人员可以参考 GitHub 上的 llama.cpp 文档。

开发者生态系统

许多开发人员框架和抽象都基于 llama.cpp 构建,加速了应用程序开发。 Ollama、Homebrew 和 LMStudio 等工具扩展了 llama.cpp 功能,提供配置管理、模型权重捆绑、抽象 UI 和本地运行的 LLM API 端点等功能。

此外,在 RTX 系统上使用 llama.cpp 的开发人员还可以使用各种预先优化的模型。著名的模型包括 Hugging Face 上 Llama 3.2 的最新 GGUF 量化版本。 llama.cpp 还作为推理部署机制集成在 NVIDIA RTX AI 工具包中。

利用 llama.cpp 的应用程序

llama.cpp 加速了 50 多个工具和应用程序,包括:

  • 后院.ai: 使用户能够在私有环境中与 AI 角色交互,利用 llama.cpp 加速 RTX 系统上的 LLM 模型。
  • 勇敢的: 将 AI 助手 Leo 集成到 Brave 浏览器中。 Leo 使用 Ollama(它利用 llama.cpp)与用户设备上的本地 LLM 进行交互。
  • 歌剧: 集成本地 AI 模型以增强 Opera One 中的浏览,使用 Ollama 和 llama.cpp 在 RTX 系统上进行本地推理。
  • 来源图: AI 编码助手 Cody 使用最新的 LLM 并支持本地机器模型,利用 Ollama 和 llama.cpp 在 RTX GPU 上进行本地推理。

入门

开发人员可以在 RTX AI PC 上使用 llama.cpp 加速 GPU 上的 AI 工作负载。 LLM 推理的 C++ 实现提供了一个轻量级安装包。要开始使用,请参阅 RTX AI Toolkit 上的 llama.cpp。 NVIDIA 仍然致力于为 RTX AI 平台上的开源软件做出贡献并加速其发展。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻

llama.cppLLMRTX人工智能加密区块链性能NVIDIA提升新闻系统上的
Comments (0)
Add Comment