技术栈
llama
武子康
4 天前
人工智能
·
agent
·
llama
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
llama.cpp b9754 不是一次"大版本升级",也不是一次性能爆炸式提升。它真正值得关注的地方,是修复了一个很具体但很关键的问题:让 peg-native 工具调用里的 grammar generation 更严格,避免模型在 XML 风格工具调用中生成看似合法、实际无法被解析的坏结构。
AI小百科
15 天前
llama
·
vllm
llama.cpp vs vLLM:深度解析与选型指南
作为当前最受关注的两大LLM推理引擎,llama.cpp和vLLM分别代表了极致轻量与高效生产两种截然不同的设计哲学。它们并非简单的“谁更强”的关系,而是面向不同场景、解决不同问题的专业工具。本文从原理、性能、适用场景全维度深入解析。
下班走回家
16 天前
人工智能
·
llama
·
vllm
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
近年来,大语言模型(LLM)的能力不断提升,从 GPT-4 到 Claude 再到开源的 DeepSeek、Qwen 系列,模型的智商越来越高。但对于很多开发者和企业来说,调用云端 API 存在数据隐私、延迟和成本等问题。于是,「本地部署大模型」成了一个越来越热门的话题。
zhy29563
18 天前
人工智能
·
lora
·
dnn
·
llama
·
qwen3
【DNN】基于llama.cpp的Qwen3-0.6B量化部署微调
3.3 模型转换
kuokay
19 天前
人工智能
·
分布式
·
大模型
·
agent
·
llama
MLOps 与 AIOps 的核心概
本文系统梳理 MLOps 与 AIOps 的核心概念、技术栈、架构设计与生命周期管理,并结合 AI Infra 实践经验给出落地建议。适合 ML 工程师、平台工程师和技术架构师阅读。
Trouville01
20 天前
llama
windows系统使用llama.cpp进行本地大模型部署
一. 安装llama.cpp1.1 这部分内容比较简单,官方有使用命令行来进行安装的,如下所示。但是如果你有英伟达显卡的话不推荐,因为这会默认安装cpu版本。
棒棒的唐
20 天前
llama
windows 直接安装llama.cpp的方法
winget install llama.cpp如果下载那步卡住,可以复制显示出来的链接用讯雷下载后,解压即可使用,需要手动配置Path环境变量指向该目录。 讯雷下载时没有资源下载的话,先转到云盘再从云盘里下载下来。 如:https://github.com/ggml-org/llama.cpp/releases/download/b9310/llama-b9310-bin-win-vulkan-x64.zip
troubles maker
20 天前
llm
·
nlp
·
llama
·
多模态
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
论文链接:https://arxiv.org/pdf/2304.15010大语言模型(Large Language Model,LLM)的落地应用中,轻量化微调是平衡性能、算力与部署成本的核心技术路线。相较于全参数微调、低秩自适应(Low-rank adaptation,LoRA)[1] 等主流方案,Adapter 架构以模块化、高兼容性的特点,被广泛应用于 LLaMA[2] 等开源大模型的下游迁移任务。
xyz_CDragon
20 天前
人工智能
·
分布式
·
python
·
rpc
·
llama
把旧电脑变成AI算力:llama.cpp RPC 局域网分布式推理验证与实战
一台机器跑不动大模型怎么办?把家里的旧电脑、NAS、闲置笔记本用局域网串起来,llama.cpp RPC 模式让你零成本搭一个分布式推理集群。
wengad
21 天前
llama
llama.cpp进行模型格式转换和量化
本文介绍如何使用llama将safetensor格式的模型装成gguf,并对转换后的模型进行量化。llama.cpp 是由开发者 Georgi Gerganov 开源、基于纯 C/C++ 实现的轻量化大语言模型本地推理引擎,MIT 开源协议免费商用,最初为在普通消费硬件运行 Meta LLaMA 模型而生,现已成为本地 / 边缘跑量化大模型的工业事实标准。
小七-七牛开发者
22 天前
agent
·
llama
·
模型部署
·
ollama
·
本地模型
本地模型为什么能跑起来?从 llama.cpp 量化说起
上周,Google 发布了 Gemma 4 12B。这个模型最大的亮点是,官方说它可以在 16GB VRAM 或 unified memory 的消费级笔记本上本地运行。
七牛云行业应用
22 天前
llama
Llama 4 实战指南:Scout/Maverick 本地部署 + API 调用完整流程【2026】
Llama 4 是 Meta 于 2025 年 4 月发布的多模态大语言模型系列,采用混合专家(MoE)架构,旗下包含 Scout(109B 总参数)、Maverick(400B 总参数)两个已开放权重的模型,以及仍在训练中的超旗舰 Behemoth(约 2T 总参数)。这一代模型原生支持图文多模态输入,最长上下文窗口达 10M token,在多项 STEM 和代码基准测试上超越 GPT-4o 和 Claude Sonnet 3.7。
Soari
23 天前
c语言
·
c++
·
llama
llama.cpp更新(b9553):LLM inference in C/C++,本地和云端实现高性能大模型推理
随着大语言模型从云端 API 逐步走向本地部署、私有化部署和边缘端推理,开发者面临一个非常现实的问题:
一叶知秋dong
23 天前
linux
·
服务器
·
llama
llama.cpp 启动脚本
1、下载最新版本的llama.cppGitHub - ggml-org/llama.cpp: LLM inference in C/C++ · GitHub
若苗瞬
24 天前
google
·
llama
·
gemma
·
qat
·
mtp
继续提速:Llama.cpp 已经正式支持 Gemma4 MTP
原版的llama.cpp支持的平台很多,功能也很多,所以进度相对比较慢。 就在刚刚,突然发现,am17an的pr合并了。😄 这就意味着原版支持gemma4的MTP模式了,不用再自己编译pr或别的fork。
cv魔法师
25 天前
llama
Linux构建编译llama.cpp
-DAMDGPU_TARGETS=gfx1103 要改成自己型号的, 我的是780M显卡,是gfx1103
Fzuim
1 个月前
人工智能
·
llama
Codex + llama.cpp + Qwen3.6-35B:零成本的本地 AI 编程方案,我把整套流程跑通了
说实话,Codex 出来之后我一直在等一个机会——把它接到本地模型上跑。不是官方 API 用不起,而是这玩意儿在国内的体验真的离谱:注册要海外手机号,额度死贵,还动不动封号。Claude Code 好歹还能用国内模型的 Anthropic 兼容接口直接对接,Codex 用的是 OpenAI 的 Responses API,跟 llama.cpp 这种本地服务压根不在一个频道上。
元拓数智
1 个月前
数据库
·
人工智能
·
ai
·
nlp
·
agent
·
llama
跨库NL2SQL可信落地的核心:用IntaLink破解数据关系“迷雾”
上周数据部的小张又被业务部门找上门——市场部要的“全国各区域线上线下销售额对比”报表,AI生成的SQL把电商库的“交易金额”和线下POS库的“实收金额”直接关联求和,结果差了近20%。小张只能加班排查,发现是两个库的金额字段统计口径不同,且表间关联关系没有被AI识别到。这样的场景,几乎每天都在企业数据部门上演:跨库智能问数看似高效,却常常因为数据关系混乱导致结果失真,最终还是要数据工程师兜底。
硅谷茶馆
1 个月前
llama
Codex+本地Qwen3.5无审查实用案例分享及llama对接踩坑。
大家好,这里是硅谷茶馆。今天和大家分享一个让本地大模型真正帮上忙的实用方案——用 Ollama 结合 OpenAI 的 Codex 工具,在自己电脑上运行 AI 编程助手。