NVIDIA RTX 系统上使用 llama.cpp 加速 LLM

NVIDIA RTX 系统上使用 llama.cpp 加速 LLM

文章目录

  • [NVIDIA RTX 系统上使用 llama.cpp 加速 LLM](#NVIDIA RTX 系统上使用 llama.cpp 加速 LLM)
    • [llama.cpp 概述](#llama.cpp 概述)
    • [llama.cpp 在 NVIDIA RTX 上的加速性能](#llama.cpp 在 NVIDIA RTX 上的加速性能)
    • [使用 llama.cpp 构建的开发人员生态系统](#使用 llama.cpp 构建的开发人员生态系统)
    • [使用 llama.cpp 在 RTX 平台上加速的应用程序](#使用 llama.cpp 在 RTX 平台上加速的应用程序)
    • 开始使用

适用于 Windows PC 的 NVIDIA RTX AI 平台提供了一个蓬勃发展的生态系统,其中包含数千种开源模型,供应用程序开发人员利用并集成到 Windows 应用程序中。值得注意的是,llama.cpp 是一款流行的工具,在撰写本文时拥有超过 65,000 个 GitHub 星标。这个开源存储库最初于 2023 年发布,是一个轻量级、高效的大型语言模型 (LLM) 推理框架,可在包括 RTX PC 在内的一系列硬件平台上运行。

这篇文章解释了 RTX PC 上的 llama.cpp 如何为构建需要 LLM 功能的跨平台或 Windows 原生应用程序提供引人注目的解决方案。

llama.cpp 概述

虽然 LLM 在解锁令人兴奋的新用例方面表现出了希望,但它们的大内存和计算密集型特性通常使开发人员难以将它们部署到生产应用程序中。为了解决这个问题,llama.cpp 提供了大量功能来优化模型性能并在各种硬件上高效部署。

llama.cpp 的核心是利用 ggml 张量库进行机器学习。这个轻量级软件堆栈支持跨平台使用 llama.cpp,而无需外部依赖项。它具有极高的内存效率,是本地设备推理的理想选择。模型数据以称为 GGUF 的自定义文件格式打包和部署,由 llama.cpp 贡献者专门设计和实施。

在 llama.cpp 上构建项目的开发人员可以从数千个预打包模型中进行选择,涵盖广泛的高质量量化。一个不断壮大的开源社区正在积极开发 llama.cpp 和 ggml 项目。

llama.cpp 在 NVIDIA RTX 上的加速性能

NVIDIA 继续合作改进和优化 llama.cpp 在 RTX GPU 上运行时的性能以及开发人员体验。一些关键贡献包括:

有关最新贡献的更多信息,请参阅使用 CUDA 图表优化 llama.cpp AI 推理

上图显示了 NVIDIA 内部测量结果,展示了使用 llama.cpp 上的 Llama 3 8B 模型在 NVIDIA GeForce RTX GPU 上的吞吐量性能。在 NVIDIA RTX 4090 GPU 上,用户可以预期每秒约 150 个令牌,输入序列长度为 100 个令牌,输出序列长度为 100 个令牌。

要使用带有 CUDA 后端的 NVIDIA GPU 优化构建 llama.cpp 库,请访问 GitHub 上的 llama.cpp/docs

使用 llama.cpp 构建的开发人员生态系统

在 llama.cpp 之上构建了一个庞大的开发人员框架和抽象生态系统,以便开发人员进一步加速他们的应用程序开发之旅。流行的开发人员工具(如 OllamaHomebrewLMStudio)都在底层扩展并利用了 llama.cpp 的功能,以提供抽象的开发人员体验。其中一些工具的主要功能包括配置和依赖项管理、模型权重的捆绑、抽象的 UI 以及本地运行的 LLM API 端点。

此外,还有一个广泛的模型生态系统,这些模型已经预先优化,可供开发人员在 RTX 系统上使用 llama.cpp 利用。值得注意的模型包括 Hugging Face 上提供的最新 GGUF 量化版本的 Llama 3.2

此外,llama.cpp 作为 NVIDIA RTX AI 工具包的一部分提供推理部署机制。

使用 llama.cpp 在 RTX 平台上加速的应用程序

现在有 50 多个工具和应用程序使用 llama.cpp 加速,包括:

  • Backyard.ai:使用 Backyard.ai,用户可以在私人环境中完全拥有和控制自己喜欢的角色,通过 AI 释放创造力。该平台利用 llama.cpp 加速 RTX 系统上的 LLM 模型。
  • Brave 已将智能 AI 助手 Leo 直接内置到 Brave 浏览器中。借助隐私保护的 Leo,用户现在可以提问、总结页面和 PDF、编写代码和创建新文本。借助 Leo,用户可以利用 Ollama(利用 llama.cpp 在 RTX 系统上加速)与设备上的本地 LLM 进行交互。
  • Opera:Opera 现在已集成本地 AI 模型来增强用户的浏览需求,作为 Opera One 开发者版本的一部分。 Opera 使用 Ollama 集成了这些功能,利用完全在 NVIDIA RTX 系统本地运行的 llama.cpp 后端。在 Opera 的浏览器 AI Aria 中,用户还可以向引擎询问网页摘要和翻译,通过其他搜索获取更多信息,生成文本和图像,并大声朗读响应,支持 50 多种语言。
  • Sourcegraph:Sourcegraph Cody 是一款 AI 编码助手,支持最新的 LLM,并使用最佳开发人员环境来提供准确的代码建议。Cody 还可以处理在本地机器和隔离环境中运行的模型。它利用使用 llama.cpp 的 Ollama 来支持在 NVIDIA RTX GPU 上加速的本地推理。

开始使用

RTX AI PC 上使用 llama.cpp 为开发人员提供了一种引人注目的解决方案,可以加速 GPU 上的 AI 工作负载。借助 llama.cpp,开发人员可以利用轻量级安装包的 C++ 实现进行 LLM 推理。了解更多信息并开始使用 RTX AI 工具包上的 llama.cpp

NVIDIA 致力于为 RTX AI 平台上的开源软件做出贡献并加速其发展。

相关推荐
AIGC大时代25 分钟前
方法建议ChatGPT提示词分享
人工智能·深度学习·chatgpt·aigc·ai写作
糯米导航29 分钟前
ChatGPT Prompt 编写指南
人工智能·chatgpt·prompt
Damon小智31 分钟前
全面评测 DOCA 开发环境下的 DPU:性能表现、机器学习与金融高频交易下的计算能力分析
人工智能·机器学习·金融·边缘计算·nvidia·dpu·doca
Jerry Lau39 分钟前
大模型-本地化部署调用--基于ollama+openWebUI+springBoot
java·spring boot·后端·llama
赵孝正1 小时前
特征选择(机器学习)
人工智能·机器学习
QQ_7781329741 小时前
Pix2Pix:图像到图像转换的条件生成对抗网络深度解析
人工智能·神经网络
数据馅1 小时前
window系统annaconda中同时安装paddle和pytorch环境
人工智能·pytorch·paddle
高工智能汽车1 小时前
2025年新开局!谁在引领汽车AI风潮?
人工智能·汽车
不爱原创的Yoga1 小时前
自动驾驶汽车目前面临的最大技术挑战是什么?
人工智能·自动驾驶·汽车