技术栈
llama
wengad
13 小时前
llama
llama.cpp进行模型格式转换和量化
本文介绍如何使用llama将safetensor格式的模型装成gguf,并对转换后的模型进行量化。llama.cpp 是由开发者 Georgi Gerganov 开源、基于纯 C/C++ 实现的轻量化大语言模型本地推理引擎,MIT 开源协议免费商用,最初为在普通消费硬件运行 Meta LLaMA 模型而生,现已成为本地 / 边缘跑量化大模型的工业事实标准。
小七-七牛开发者
1 天前
agent
·
llama
·
模型部署
·
ollama
·
本地模型
本地模型为什么能跑起来?从 llama.cpp 量化说起
上周,Google 发布了 Gemma 4 12B。这个模型最大的亮点是,官方说它可以在 16GB VRAM 或 unified memory 的消费级笔记本上本地运行。
七牛云行业应用
2 天前
llama
Llama 4 实战指南:Scout/Maverick 本地部署 + API 调用完整流程【2026】
Llama 4 是 Meta 于 2025 年 4 月发布的多模态大语言模型系列,采用混合专家(MoE)架构,旗下包含 Scout(109B 总参数)、Maverick(400B 总参数)两个已开放权重的模型,以及仍在训练中的超旗舰 Behemoth(约 2T 总参数)。这一代模型原生支持图文多模态输入,最长上下文窗口达 10M token,在多项 STEM 和代码基准测试上超越 GPT-4o 和 Claude Sonnet 3.7。
Soari
2 天前
c语言
·
c++
·
llama
llama.cpp更新(b9553):LLM inference in C/C++,本地和云端实现高性能大模型推理
随着大语言模型从云端 API 逐步走向本地部署、私有化部署和边缘端推理,开发者面临一个非常现实的问题:
一叶知秋dong
3 天前
linux
·
服务器
·
llama
llama.cpp 启动脚本
1、下载最新版本的llama.cppGitHub - ggml-org/llama.cpp: LLM inference in C/C++ · GitHub
若苗瞬
4 天前
google
·
llama
·
gemma
·
qat
·
mtp
继续提速:Llama.cpp 已经正式支持 Gemma4 MTP
原版的llama.cpp支持的平台很多,功能也很多,所以进度相对比较慢。 就在刚刚,突然发现,am17an的pr合并了。😄 这就意味着原版支持gemma4的MTP模式了,不用再自己编译pr或别的fork。
cv魔法师
5 天前
llama
Linux构建编译llama.cpp
-DAMDGPU_TARGETS=gfx1103 要改成自己型号的, 我的是780M显卡,是gfx1103
Fzuim
6 天前
人工智能
·
llama
Codex + llama.cpp + Qwen3.6-35B:零成本的本地 AI 编程方案,我把整套流程跑通了
说实话,Codex 出来之后我一直在等一个机会——把它接到本地模型上跑。不是官方 API 用不起,而是这玩意儿在国内的体验真的离谱:注册要海外手机号,额度死贵,还动不动封号。Claude Code 好歹还能用国内模型的 Anthropic 兼容接口直接对接,Codex 用的是 OpenAI 的 Responses API,跟 llama.cpp 这种本地服务压根不在一个频道上。
元拓数智
6 天前
数据库
·
人工智能
·
ai
·
nlp
·
agent
·
llama
跨库NL2SQL可信落地的核心:用IntaLink破解数据关系“迷雾”
上周数据部的小张又被业务部门找上门——市场部要的“全国各区域线上线下销售额对比”报表,AI生成的SQL把电商库的“交易金额”和线下POS库的“实收金额”直接关联求和,结果差了近20%。小张只能加班排查,发现是两个库的金额字段统计口径不同,且表间关联关系没有被AI识别到。这样的场景,几乎每天都在企业数据部门上演:跨库智能问数看似高效,却常常因为数据关系混乱导致结果失真,最终还是要数据工程师兜底。
硅谷茶馆
6 天前
llama
Codex+本地Qwen3.5无审查实用案例分享及llama对接踩坑。
大家好,这里是硅谷茶馆。今天和大家分享一个让本地大模型真正帮上忙的实用方案——用 Ollama 结合 OpenAI 的 Codex 工具,在自己电脑上运行 AI 编程助手。
Soari
6 天前
开源
·
github
·
llama
·
llm 推理
·
npu 本地模型推理
·
加速 c/c++ 开源项目
GitHub 开源项目解析:rk‑llama.cpp —— 基于 llama.cpp 的 Rockchip NPU 加速本地推理引擎
随着大语言模型(LLM)在边缘设备和本地部署场景的广泛应用,如何在资源受限的硬件上高效运行这些模型成为一个热门课题。标准的 LLM 推理引擎提供了一套轻量、高效、跨平台的 C/C++ 推理框架,可在 CPU、GPU 甚至 Vulkan、SYCL 等多种硬件上运行 LLM 推理。
王天天(Bennet)
7 天前
深度学习
·
transformer
·
llama
【从第一性原理来深入理解Transformer-更适合入门的理解(llama-3B模型为例)】
从第一性原理出发,拆解一个真实的小模型 —— 以 Meta LLaMA 3.2 3B 为例一句话主线: 大模型只做一件事——看完前面所有词,预测下一个词。Transformer,就是目前为止把这件事做得最好的那套机制。
zhiSiBuYu0517
9 天前
llama
llama.cpp 本地大模型部署与调用实战
WEB项目地址:AI智能商品导购系统 安卓APP下载地址:精打细算在本地部署大语言模型曾经是一件让许多开发者望而却步的事情,复杂的依赖环境、晦涩的模型格式转换以及难以捉摸的显存报错,往往在第一步就劝退了尝试者。但随着开源社区的快速发展,如今我们只需要几行命令和清晰的配置流程,就能在个人电脑甚至普通服务器上跑起性能强劲的模型。无论是为了数据隐私安全需要在内网运行,还是为了低成本验证算法想法,掌握一套标准化的本地部署流程都显得尤为重要。
wangqiaowq
9 天前
llama
基于 LLaMA-Factory 的完整微调流程
参考:文本类LoRA微调验证-CSDN博客DPO(Direct Preference Optimization,直接偏好优化)-CSDN博客 为你整理了基于 LLaMA-Factory 的完整微调流程。这两篇文档分别涵盖了 SFT(监督微调) 和 DPO(直接偏好优化) 两个核心阶段。
碳基硅坊
9 天前
人工智能
·
llama
·
推理加速
·
qwen3.6-27b
llama.cpp本地部署Qwen3.6-27B
阿里开源的Qwen3.6-27B在编程能力基准测试上着实让人眼前一亮——27B参数的稠密模型,在SWE-bench、Terminal-Bench这些智能体编程测试中直接超越了自家397B的前代旗舰。这让不少人萌生了在本地跑起来的心思,毕竟Apache 2.0协议意味着可以商用,数据不出域也是很多人关心的点。
sleven fung
11 天前
开发语言
·
python
·
算法
·
llama
llama-cpp-python 本地部署入门
第一章 GeminiCLI与Repomix第二章 MinerU与BabelDOC与KTransformers与OpenAI API库
碳基硅坊
11 天前
人工智能
·
llama
·
大模型部署
Qwen3.6-27B 本地部署三大工具:Ollama、LM Studio、llama.cpp 谁更快?
阿里开源的 Qwen3.6-27B ,很多人想在本地跑起来。Ollama、LM Studio、llama.cpp 三个工具怎么选?
小何code
12 天前
lora
·
llama
·
peft
·
qlora
·
大模型微调
人工智能【第53篇】大模型微调实战:LoRA与QLoRA技术详解
作者的话:预训练的大语言模型(如GPT、LLaMA)虽然能力强大,但在特定领域任务上往往表现不佳。全量微调成本高昂,且需要大量计算资源。LoRA(低秩适配)和QLoRA(量化LoRA)技术的出现,让我们能够以极低的成本高效微调大模型。本文将深入解析这两种技术的原理,并带你完成完整的微调实战!
kuokay
12 天前
分布式
·
llama
·
deepspeed
·
fsdp
·
llama-factory
·
accelerate
深入理解 LLM 分布式训练全栈:从硬件到 LLaMA-Factory
大语言模型的训练是一项复杂的系统工程。从底层的芯片指令,到上层的训练框架,每一层都承担着独特的职责,彼此协作才能完成数百亿参数模型的高效训练。本文将自底向上逐层拆解这套技术栈,并配合实际示例帮助你真正理解每一层的设计意图与工作机制。
C137的本贾尼
12 天前
人工智能
·
spring
·
llama
Spring AI Alibaba 模型全家桶:接入通义、百川、LLaMA 等第三方 LLM
上篇我们学会了用工作流编排多个 AI 任务,但有一个问题遗留了下来:所有 AI 节点都共用同一个模型。如果我想让逻辑推理用 DeepSeek,中文润色用通义千问,本地快速响应用 LLaMA,怎么办?今天这篇就是答案——用 Spring AI Alibaba 的多模型切换能力,让你在一套代码里自由组合各大模型,真正做到“一个项目,全家桶模型随心配”。