llama

Jurio.8 小时前
python·ai·llama
使用.py脚本下载并加载开源大模型LLMs可以通过以下代码下载并加载模型,以facebook/opt-6.7b为例:如果出现以下报错,则说明是网络连接问题:无法连接到 Hugging Face 的服务器
解局易否结局1 天前
llama
FlashAttention 在昇腾NPU上的实现:从内存墙到IO感知之前帮一个团队排查大模型训练显存溢出的问题,拿到profiling数据一看,Attention 层的 HBM 访存占了整条流水线 60% 以上的带宽。这不是算力不够——是数据搬得太频繁了。
Soari1 天前
llama
性能压榨的暴力美学:深度拆解 llama.cpp,结合 GGUF 量化实测,看普通人如何用 2GB 内存硬核跑赢 7B 大模型发布日期: 2026-05-19 (release: b9222)标签: #llamacpp #GGUF量化 #C++ #大模型推理 #边缘AI #内存降熵
weixin_446260852 天前
人工智能·llama
终极工程指南:llama.cpp 本地AI部署手册 (2026)本指南的核心价值是提供一套可复制、可执行、高可靠性的本地大模型部署蓝图。所有步骤均围绕解决本地 AI 部署的痛点展开,从环境配置到模型运行,力图实现“下载 → \rightarrow → 运行”的一键式体验。 (核心价值保留:工程化、易用性、技术深度)
ONE_SIX_MIX3 天前
llama
新版本 llama-cpp 构建/下载 webui 导致build 失败 解决解决办法:先安装 Node.js 环境库,最新版本即可。确保 npm 命令全局可用后,然后自行构建 WebUI。
Wanderer X3 天前
llama
【LLM】LLaMA截至目前(2025年5月),Meta 发布的 LLaMA (Large Language Model Meta AI) 系列共经历了 4个大版本、7个主要迭代,下面逐一介绍。
落痕的寒假3 天前
深度学习·学习·llama
[深度学习] 大模型学习8上-推理部署框架llama.cpp与Ollama使用指北随着大语言模型(Large Language Model,LLM)全面步入实际应用阶段,推理部署框架成为模型落地进程中必不可少的重要组成部分。不同框架在性能优化方式、部署复杂度以及适用场景上差异较大,在实际工程选型中往往需要先理解其基本定位与使用方式。关于模型推理部署基础概念的介绍,可参考:大模型学习6-模型量化与推理部署。
网络工程小王4 天前
笔记·学习·llama
【大模型vLLM 使用】学习笔记你用 LLaMA-Factory 微调完,可以用 llamafactory-cli chat 聊天测试。但这个方式只适合本地调试,不适合正式使用:
TGITCIC5 天前
微调·sft·llama·模型训练·训练·大模型训练·llama-factory
大模型训练师的炼丹之道 (1)-最新版llama-factory环境搭建和全排错在人工智能的演进图谱中,大模型训练始终占据着技术金字塔的顶端。它不仅是AI Agent开发的上层建筑,更是当Agent应用发展到一定深度后,不可避免必须跨越的技术鸿沟。唯有掌握底层模型的塑造能力,才能真正突破通用能力的天花板。
周公5 天前
python·ai·llama·vllm·ollama
记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录最近需要本地部署大模型推理服务,目标是运行 Qwen3.6-35B 的 INT4 量化版本(AWQ 格式),并使用高性能推理引擎 vLLM 提供服务。由于模型采用 AWQ 量化,且需要较新的 CUDA 环境,现有的 CUDA 11.5 和旧版驱动已经不满足要求。因此,决定将 NVIDIA 驱动和 CUDA Toolkit 升级到 CUDA 12.9 兼容版本,并在 Docker 容器中运行 vLLM,以实现环境隔离与快速部署。
若苗瞬6 天前
llm·llama·cpp·gemma·mtp·ik_llama·dflash
记一次失败的本地部署 LLM MTP 模型的过程先说结论:如果显卡没有24GB+的显存,确实没必要折腾。 显存容量决定体验上限,MTP不是“免费加速”,而是用更多显存换 decode 加速。
黑贝是条狗8 天前
llama
llama编译封装了一个最小翻译模型400MHy-MT1.5-1.8B-1.25bit-GGUF 混元翻译支持手机llama要用分支编译,才能加载模型推理
决战灬8 天前
llama
LlamaIndex 之 get_response_synthesizer(一)代码片段在 LlamaIndex 中,response_mode 是控制响应合成器如何将检索到的上下文节点与用户查询结合起来生成最终答案的关键参数。
倔强的胖蚂蚁9 天前
云原生·llama
主流大模型使用指南:Gemma/Llama 全流程Ollama 是当前最主流的本地大模型一键部署与管理工具,跨平台兼容 Windows/macOS/Linux。它彻底解决了传统本地部署需要手动配置环境、适配硬件、编译底层库的高门槛问题,一行命令即可完成模型的下载、运行、管理,是初学者入门本地 AI 的首选方案。
shen1213811 天前
llama·qwen3.6-27b
使用 llama.cpp + MTP 分支实现 1.5 倍 Token 输出加速实战指南摘要:本文详细介绍如何通过 llama.cpp 的 MTP(Multi-Token Prediction)PR 分支,配合 Qwen3.6-27B-MTP GGUF 量化模型,实现推理时每秒输出 token 数量翻倍的效果。适合希望在本地/私有部署中获得更高吞吐量的开发者参考。
xingyuzhisuan11 天前
运维·人工智能·算法·llama·gpu算力
适合微调Llama 3 70B模型的最低GPU配置推荐Llama 3 70B模型参数量700亿,微调显存需求远高于推理,核心影响因素为微调方式、量化精度,其中QLoRA(INT4+LoRA)是兼顾成本与效果的主流方案,也是个人及中小企业实现最低配置微调的关键。本文所有配置均基于实测数据,覆盖不同预算、不同场景,明确“最低可用”标准,同时补充硬件协同要求,避免因单一硬件瓶颈导致微调失败,文中数据来自星宇智算实操测试及行业第三方测评,确保可信可复用。
Karry_66612 天前
llama
本地Ollama安装部署1.打开ollama官网:https://ollama.com/2.Download下载ollama下载约有2GB 保证系统盘上面有足够的空间 耐心等待
挪不动13 天前
llama
llama.cpp 问题解决记录主要目的就是记录,因为我想要解决的这几个问题都没找到可用的方法,都是试了多少次后试出来的,也可能是我的搜索关键字没有输入对,但我搜索的真的都是完全不相关或是解决不了的,所以才在解决问题后记录一下,都是小问题,大神勿喷,有更好的方法也希望能指导一下,先谢谢。
code_pgf13 天前
人工智能·架构·llama
llama.cpp 最新架构详解生成日期:2026-05-08 版本语境:以 ggml-org/llama.cpp 官方 master 文档、README、server README、build 文档与 GitHub Releases 当前页面为依据。GitHub Releases 页面在检索时显示 b9071 为 Latest 构建。 说明:llama.cpp 迭代非常快,本文聚焦“当前主线架构与运行路径”,不是逐行源码审计。