llama.cpp

Ki13815 天前
人工智能·llama.cpp·rtx pro 4000
N记消费/专业级Blackwell架构GPU,以编译方式安装llama.cpp搞了块RTX PRO 4000显卡,配置了24G VRAM,做实验发挥的余地又拓展了一些了。Ollama毫无难度的跑了起来,所以还想试试其它更适合生产环境的推理框架。但问了下AI,当前(2026年5月)。一些主流推理框架对英伟达Blackwell架构的GPU(尤其是消费级的)优化仍在进行中,llama.cpp算是比较推荐的一种了(毕竟Ollama也是以它为基础),因此先拿它来折腾。
碳基硅坊5 天前
人工智能·vllm·llama.cpp·模型加速·mtp
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测MTP(Multi-Token Prediction,多Token预测)是一项新兴的大模型推理优化技术。本文基于完整测试数据,对比vLLM和llama.cpp在MTP模式下的性能表现,并提供可操作的部署指南。
cooldream200917 天前
大模型微调·llama.cpp·unsloth
利用网络算力使用 Unsloth 实现llama大模型的微调部署调用大模型微调是让通用大模型适应特定任务或领域的重要技术。传统全参数微调需要昂贵的 GPU 资源,而 Unsloth 通过 QLoRA 4bit 量化技术,将微调的显存需求降低 50% 以上,同时保持训练速度提升 2-5 倍。本文详细介绍在 AutoDL 云服务器上使用 Unsloth 进行大模型微调的完整操作流程,包括环境配置、模型下载、微调训练、权重合并以及 API 部署。
JOJO___20 天前
windows·cpu·amd·llama.cpp·llama.cpp编译·千问3.5·本地大语言模型
【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低我的电脑是AMD的+32G内存,没有GPU,偏要玩一玩千问3.5本地大语言模型,github上下载的llama安装包,无法使用,只有自己编译试试了。注意我是编译CPU版本的,你有GPU这篇别看了。 以下是我的CPU型号:
曦云沐22 天前
macos·llama.cpp
MacOS 上使用 Metal GPU 加速编译 llama.cpp 完整指南本文详细记录了在 MacOS 上使用 Metal GPU 加速编译 llama.cpp 的全过程,涵盖 cmake 安装、仓库克隆、编译配置、模型下载、GPU 验证、多模型运行测试以及性能监控工具的使用,适合需要在 Apple Silicon Mac 上本地运行大语言模型的开发者参考。
feasibility.1 个月前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model
晨欣2 个月前
llama.cpp·qwen3.6-35b-a3b·qwen3.5-35b-a3b
单卡 L20 48GB实测 | 同是 Q8_0,为什么 Qwen3.6 在 llama.cpp 长上下文下比 Qwen3.5 更慢?关键词: Qwen3.5、Qwen3.6、llama.cpp、GGUF、Q8_0、TTFT、Prefill、长上下文、L20 48GB、推理性能、单卡部署
d1z8882 个月前
人工智能·llama·显卡·llama.cpp
(二十)32天GPU测试从入门到精通-llama.cpp CPU/GPU 混合推理day18llama.cpp 是最流行的 CPU 推理引擎,让大语言模型在无 GPU 设备上运行成为可能,是边缘部署、隐私保护、成本敏感场景的首选方案。2023 年初,当整个行业都在追求更大模型、更多 GPU 时,llama.cpp 的作者反其道而行之:如何让 7B 模型在普通笔记本上流畅运行?通过精心优化的量化技术和 CPU 指令集利用,llama.cpp 做到了这一点,并迅速成为 GitHub 上最热门的 AI 项目之一。
gergul2 个月前
python·llama·llama.cpp·llamacpppython
在llama-cpp-python中使用自己编译的llama.cpp,解决pip install llama-cpp-python报错Q:在使用“pip install llama-cpp-python”安装llama-cpp-python出现错误,最后几句错误是这样的:
晨欣2 个月前
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比关键词: Gemma 4、gpt-oss-20b、MoE、Dense、llama.cpp、vLLM、GGUF、单卡部署、长上下文、并发测试、L20 48GB
belldeep2 个月前
人工智能·llama.cpp·bitnet·gguf·ggml
AI: ggml llama.cpp 与 BitNet 模型介绍简单来说,这两个名字指向了当前大模型社区一个很受欢迎的方向:让强大的AI模型能在普通的CPU电脑甚至手机上,就能流畅运行。
love530love2 个月前
人工智能·windows·microsoft·llama.cpp·bitnet·flash attention·bitlinear_cpp
【独家资源】Windows 本地部署微软 BitNet b1.58: Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化microsoft/BitNet:1位大型语言模型的官方推理框架突破 Windows 编译禁区:BitNet 1-bit LLM 推理框架 GPU 加速部署编译 BitNet CUDA 算子全记录
love530love3 个月前
人工智能·windows·vllm·ollama·llama.cpp·lm studio·openclaw
OpenClaw搭配LM Studio VS Ollama:Windows CUDA实战深度对比与完全配置指南Ollama 官方网站OllamaOllama 官方 GitHub 仓库GitHub - ollama/ollama
晨欣3 个月前
llm·谷歌·cursor·llama.cpp·gguf模型·gpt5.4
llama.cpp 设计巧思:多模态模型拆分加载,按需使用视觉能力(配图由谷歌的Nano Banana模型倾情生成)在 48GB L20 单卡部署 Qwen3.5-27B 时,我发现 GGUF 仓库里不止一个文件——这背后是一个非常实用的架构设计。
JohnCHsu3 个月前
ai·agent·llama.cpp·openclaw
性能干翻235B,单卡私有化部署OpenClaw基于 Docker + llama.cpp 的本地化 AI 代理平台完整部署指南 本方案已在单卡 22GB 显存(如 RTX 2080Ti)环境下验证,达到性能与功能的较好平衡,适用于 长上下文、低并发、高精度 的私有化 AI 代理场景。
illuspas4 个月前
glm·llama.cpp·mi50
MI50运行GLM-4.7-Flash的速度测试模型版本:https://huggingface.co/unsloth/GLM-4.7-Flash-GGUF GLM-4.7-Flash-UD-Q4_K_XL.gguf
容沁风4 个月前
llama.cpp·qwen3·openclaw
openclaw使用本地llama.cppllama.cpp兼容openapi接口,自然可以作为openclaw的后端。 添加自定义provider同前:为openclaw增加自定义provider 反复修改,总是不能得到正确的model状态。
love530love4 个月前
人工智能·windows·大模型·llama·llama.cpp·gguf·cuda 加速
Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天)在本地快速部署大模型进行离线聊天,llama.cpp 是轻量化、高性能的首选工具,尤其是 CUDA 版本能充分利用 NVIDIA 显卡的算力,大幅提升模型推理速度。本文将详细记录在 Windows 11 系统中,从环境准备、CUDA 版 llama.cpp 配置,到实现系统全局调用、快速运行 GGUF 格式模型的完整步骤,全程基于实际操作验证,适配 RTX 3090 等 NVIDIA 显卡,新手也能轻松上手。
leida_wt5 个月前
编译·llama.cpp·win7
新版llama.cpp在win7系统的移植与编译本文介绍新版llama.cpp在win7的编译移植方法。自2025.9月左右,llama.cpp主线对其cpp-httplib依赖库进行了版本升级,新版不再支持win8以下的系统。笔者经过多番尝试,将新版llama.cpp成功编译到win7,新版llama.cpp可支持qwen3系列模型。
视图猿人5 个月前
llama.cpp
使用LLama.cpp本地部署大模型llama.cpp是一个基于C/C++开发的高效大语言模型推理工具,支持跨平台部署和Docker快速启动,核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤,包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API,支持文本和多模态对话,对电脑配置要求不高,完全免费且私密,让普通用户也能轻松在本地运行大语言模型。