llama

shen121387 小时前
llama·qwen3.6-27b
使用 llama.cpp + MTP 分支实现 1.5 倍 Token 输出加速实战指南摘要:本文详细介绍如何通过 llama.cpp 的 MTP(Multi-Token Prediction)PR 分支,配合 Qwen3.6-27B-MTP GGUF 量化模型,实现推理时每秒输出 token 数量翻倍的效果。适合希望在本地/私有部署中获得更高吞吐量的开发者参考。
xingyuzhisuan1 天前
运维·人工智能·算法·llama·gpu算力
适合微调Llama 3 70B模型的最低GPU配置推荐Llama 3 70B模型参数量700亿,微调显存需求远高于推理,核心影响因素为微调方式、量化精度,其中QLoRA(INT4+LoRA)是兼顾成本与效果的主流方案,也是个人及中小企业实现最低配置微调的关键。本文所有配置均基于实测数据,覆盖不同预算、不同场景,明确“最低可用”标准,同时补充硬件协同要求,避免因单一硬件瓶颈导致微调失败,文中数据来自星宇智算实操测试及行业第三方测评,确保可信可复用。
Karry_6662 天前
llama
本地Ollama安装部署1.打开ollama官网:https://ollama.com/2.Download下载ollama下载约有2GB 保证系统盘上面有足够的空间 耐心等待
挪不动2 天前
llama
llama.cpp 问题解决记录主要目的就是记录,因为我想要解决的这几个问题都没找到可用的方法,都是试了多少次后试出来的,也可能是我的搜索关键字没有输入对,但我搜索的真的都是完全不相关或是解决不了的,所以才在解决问题后记录一下,都是小问题,大神勿喷,有更好的方法也希望能指导一下,先谢谢。
code_pgf3 天前
人工智能·架构·llama
llama.cpp 最新架构详解生成日期:2026-05-08 版本语境:以 ggml-org/llama.cpp 官方 master 文档、README、server README、build 文档与 GitHub Releases 当前页面为依据。GitHub Releases 页面在检索时显示 b9071 为 Latest 构建。 说明:llama.cpp 迭代非常快,本文聚焦“当前主线架构与运行路径”,不是逐行源码审计。
飞Link3 天前
gpt·开源·llama
2026年大模型落地深度对比:Llama 5 开源权重与 GPT-5 闭源生态在 2026 年,Llama 5 与 GPT-5 代表了两种截然不同的交付逻辑。GPT-5 (闭源 API):在复杂的跨市场宏观分析、多语言财报解读以及高阶数学推理(如期权定价模型优化)中表现出色。其作为“通用超级大脑”,能够快速处理非结构化新闻数据。
纤纡.6 天前
人工智能·深度学习·语言模型·llama
本地部署 AI 大模型保姆级教程:Ollama 安装、模型下载与终端实战全流程随着 AI 大模型技术的快速普及,越来越多开发者和普通用户希望拥有本地可运行、无网络依赖、隐私安全的 AI 对话能力。然而,传统大模型部署往往面临环境配置复杂、显存要求高、依赖安装繁琐等痛点,让很多新手望而却步。
阿珊和她的猫6 天前
ai·agent·llama·cli·mcp
从实践中提炼的架构设计与工程规范🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入门到实战全面掌握 uni-app》
liulilittle6 天前
java·前端·llama
LLAMA-CLI 运行千问3.6(R9-7945HX+64G+RTX40608G)
青山师6 天前
大模型·prompt·aigc·ai编程·llama·claude·agi
【大模型提示词工程深度解析:从原理到工业级实践、实践案例】文章标签: #ai #提示词工程 #llm原理 #prompt-engineering #rag #agent
南汁bbj7 天前
开源·llama
Llama 4 开源了!1.2 万亿参数 MoE 模型本地部署 + 推理测试(附代码)🔥 重磅更新:Meta 正式开源 Llama 4 系列 MoE 大模型,最高 1.2 万亿总参数,支持超长上下文、多模态、超强代码与推理能力,本地可部署!
万粉变现经纪人8 天前
开发语言·python·开源·aigc·pip·ai写作·llama
如何解决 pip install llama-cpp-python 报错 未安装 CMake/Ninja 或 CPU 不支持 AVX 问题摘要: 在本地部署大语言模型(LLM)时,llama-cpp-python是连接Python生态与高性能C++推理后端llama.cpp的关键桥梁。然而,在PyCharm控制台或终端执行pip install llama-cpp-python时,开发者常遭遇CMake未安装、Ninja构建失败、CPU不支持AVX指令集、Visual Studio Build Tools缺失等编译错误。本文基于Python 3.12、macOS/Windows、PyCharm 2025环境,从源码编译原理出发,提供12+种
wj3055853789 天前
llm·llama
Ollama Cloud 与直接使用 API 的对比Ollama Cloud 的核心价值不是“比 API 更强”,而是:把云端大模型接入到 Ollama 现有工作流里,让云端模型像本地 Ollama 模型一样使用。
AI_小站11 天前
人工智能·langchain·github·知识图谱·agent·llama·rag
6个GitHub爆火的免费大模型教程,助你快速进阶AI编程AI大模型正在以前所未有的速度重塑我们的工作与生活。作为AI内容创作者兼资深技术人,我经常收到粉丝们的提问:“有没有好的大模型学习资源推荐?”、"如何快速入门大模型开发?"今天,我精选了6个在GitHub上获得超高人气的大模型教程,从实用性、易上手性和前沿性多维度为大家进行深度解析。
Mr_sst12 天前
大数据·人工智能·ai·llama
infra-ai模块宏观设计解析:业务与模型之间的中间层核心架构在AI驱动的业务系统中,业务层与模型供应商(如OpenAI、阿里云百炼、豆包等)之间往往存在接口不统一、模型切换繁琐、故障无容错、配置耦合度高等问题。infra-ai模块作为两者之间的核心中间层,核心目标就是解决这些痛点,通过规范化的设计,实现业务与模型的解耦,提升系统的可扩展性、容错性和可维护性。
微软技术分享12 天前
windows·llama
Windows平台下CUDA安装及llama.cpp使用教程本文将详细讲解Windows平台下,如何安装与NVIDIA RTX显卡匹配的CUDA工具包,并正确配置、使用llama.cpp加载大模型,实现模型高效运行(将模型几乎全放入显卡,提升推理速度),全程结合实操截图与具体命令,新手可直接跟着操作。
小wu学cv13 天前
llama
llama.cpp调用GPU推理Qwen3.5-0.8b模型前提条件:确保你的系统已经装好了 NVIDIA 驱动和 CUDA Toolkit(可以通过 nvidia-smi 和 nvcc --version 检查)。
zhangfeng113313 天前
运维·服务器·人工智能·深度学习·llama
LLaMA-Factory 保存 checkpoint 时崩溃解决办法 OOM 内存溢出(不是显存)1 建立 Swap 有些云空间不支持 2 释放内存3 以后设置 max_shard_size 4 以后设置 dataloader_num_workers: 2或者0
老唐77714 天前
人工智能·ai·语言模型·agent·llama·智能体
30分钟手搓 Agent:LLM + Tools + Loop + Memory 跑通最小闭环Agent 的最小执行链,到底长什么样?想了想,最好的办法就是手搓一个。先不管 ReAct、MCP、Function Calling、Memory、Harness 这些词。先不讲“自主规划、自主执行、自主反思”。