llama

AI自动化工坊5 小时前
人工智能·ai·llama
Google LiteRT-LM生产级部署指南:如何在边缘设备实现高效LLM推理?随着大语言模型应用向边缘设备迁移,Google最新发布的开源框架LiteRT-LM为开发者提供了生产级的边缘LLM推理解决方案。本文深入解析LiteRT-LM的核心技术架构,并提供从模型转换到部署优化的完整工程实践。
gergul15 小时前
python·llama·llama.cpp·llamacpppython
在llama-cpp-python中使用自己编译的llama.cpp,解决pip install llama-cpp-python报错Q:在使用“pip install llama-cpp-python”安装llama-cpp-python出现错误,最后几句错误是这样的:
黑牛儿16 小时前
ai·llama
零成本!Ollama本地部署国产大模型全指南(支持Kimi-K2.5/GLM-5/Qwen,新手秒上手)随着Gemma 4开源、GPT-6即将发布,大模型本地化部署成为开发者的必备技能——无需高额算力、无需复杂配置,用Ollama就能一键运行Kimi-K2.5、GLM-5、Qwen等主流国产大模型,数据完全私有,适合本地调试、AI Agent开发,新手也能10分钟完成部署。本文全程实操,每一步都附代码和截图(可自行补充),看完直接落地,再也不用依赖云API!
yumgpkpm2 天前
docker·chatgpt·容器·stable diffusion·kubernetes·llama·gpu算力
华为昇腾910B上用Kubernetes(K8s)部署LLM和用Docker部署LLM的区别华为昇腾910B上用Kubernetes(K8s)部署LLM和用Docker部署LLM的区别在昇腾910B(Ascend 910B)硬件平台上部署大语言模型(LLM),使用 Kubernetes(K8s)与仅使用 Docker 是两种不同层级的部署方式。它们在架构、资源管理、扩展性、运维复杂度等方面存在显著差异。以下是 不少于20条 的详细对比列表,特别结合昇腾910B平台特性:
奇思智算1 天前
人工智能·bert·llama
LLaMA/Bert/扩散模型微调GPU选型及租用指南核心结论:LLaMA系列(1B-70B)、Bert系列、扩散模型(如Stable Diffusion)微调,核心看GPU显存与算力,优先选择24GB及以上显存型号,搭配RTX 4090、A100、RTX 3090等GPU,可覆盖从入门到专业级微调需求,租用比自建省60%-80%成本,且免运维、算力稳定,适配个人、学生、中小企业及科研团队。
xingyuzhisuan1 天前
运维·服务器·llama·gpu算力
LoRA微调实战:8卡4090服务器如何高效微调LLaMA?LLaMA系列模型(LLaMA 2 7B/13B/70B、LLaMA 3 8B/70B)凭借轻量化架构、优异的生成能力,成为中小企业、科研机构及个人开发者大模型微调的首选,而LoRA(Low-Rank Adaptation)微调技术因参数量少、显存占用低、训练效率高,成为LLaMA微调的主流方案。8卡RTX 4090服务器作为高性价比算力载体,单卡24GB GDDR6X显存、129.5 TFLOPS FP16算力,通过NVLink互联实现多卡协同,可完美适配LLaMA全系列模型LoRA微调,解决单卡显存不
yumgpkpm3 天前
运维·服务器·华为·stable diffusion·aigc·copilot·llama
华为昇腾910B上用Kubernetes(K8s)部署LLM(Qwen3-32B)的详细步骤,保姆级命令及方法、下载链接等华为昇腾910B上用Kubernetes(K8s)部署LLM(Qwen3-32B)的详细步骤,保姆级命令及方法、下载链接等
YanDDDeat3 天前
python·语言模型·llama
【大模型微调】基于 Llama3-8B 的 LoRA 微调专有领域QA 问答对生成模型本文将在单张 RTX 4090 (24GB) 显卡上,通过 LoRA 微调对 Llama3-8B 进行微调(具体模型可换),将其打造为一个高效的 化学含能QA 问答对(将数据集替换后微调可以打造为:公司专业顾问专家等等)生成专家。
tinygone3 天前
人工智能·ubuntu·llama
OpenClaw之Memory配置成本地模式,Ubuntu+CUDA+cuDNN+llama.cpp承接上文:Windows11基于WSL2首次运行Openclaw,并对接飞书应用,我已经在电脑上安装了OpenClaw,接下来解决Memory问题。走了很多弯路,下面主要讲我总结的正确的安装过程。 总结来说:针对Memory不生效的问题,又不想用OpenAI或Gemini,或者只想单纯的节省token,可以按照如下的方式,设置为local模式:
建行一世3 天前
windows·ai·语言模型·llama
【Windows笔记本大模型“傻瓜式”教程】使用LLaMA-Factory工具来完成对Windows笔记本大模型Qwen2.5-3B-Instruct微调在开始前,请确保你的笔记本电脑满足以下条件:我们需要安装 Python 环境。请按顺序操作:下载 Miniconda (Python管理器):
Thomas.Sir4 天前
人工智能·python·ai·llama·llamaindex
第二章:LlamaIndex 的基本概念随着大语言模型(LLM)的快速发展,越来越多的开发者、AI爱好者及在校学生开始尝试将LLM与自有数据结合,构建个性化的AI应用。但LLM本身存在上下文窗口有限、无法直接处理私有数据、检索精度不足等问题,而LlamaIndex(曾用名GPT Index)的出现,完美解决了这些痛点。
Thomas.Sir5 天前
python·ai·llama·workflow·llamaindex
第三章:Agent智能体开发实战之【LlamaIndex 工作流从入门到实战】目录一、前言二、LlamaIndex 工作流2.1 核心组件2.1.1 定义工作流事件2.1.2 设置工作流类
Thomas.Sir5 天前
人工智能·python·ai·检索增强·llama·llamaindex
第一章:Agent智能体开发实战之【初步认识 LlamaIndex:从入门到实操】随着大语言模型(LLM)的普及,越来越多的开发者、AI爱好者开始尝试将LLM应用于实际项目,但在落地过程中,普遍面临“外部知识接入难”“复杂任务无法拆解”“多工具协同效率低”等痛点。LlamaIndex(曾用名GPT Index)作为一款专为LLM应用开发设计的框架,恰好解决了这些问题,它能帮助开发者快速连接LLM与外部数据,实现复杂任务的拆解与自动化执行,降低LLM应用的开发门槛。
做个文艺程序员5 天前
人工智能·开源·llama
2026 年开源大模型选型指南:Qwen3.5 / DeepSeek V3.2 / Llama 4 横向对比数据来源:官方技术报告、Spheron 2026 生产部署指南、AI Magicx 技术分析、Artificial Analysis Leaderboard 视角:全栈 Java 开发者,关注私有部署成本、Java 生态接入、许可证合规
汀江游非侠6 天前
llama
编译llama.cppllama.cpp 是一个用 C/C++ 实现的高性能推理框架,能在普通电脑或其他嵌入式系统上高效运行量化后的模型。本文介绍如何编译llama.cpp 使在普通电脑上也能跑起来。
AI大模型..6 天前
人工智能·langchain·llm·agent·llama
数据洞察加速器:LLM Copilot 如何让 SQL 查询效率提升 50% 以上?SQL 是数据世界的语言;然而,任何花时间编写查询的人都知道其中的痛苦。记住窗口函数、多表连接的确切语法,以及调试隐晦的 SQL 错误可能既繁琐又耗时。对于非技术用户来说,获取简单的答案往往需要求助于数据分析师。
l1t7 天前
人工智能·llama·gemma
用llama试用gemma-4-E2B模型量化版本用llama试用gemma-4-E2B模型量化版本旧的llama不支持新模型,所以要下载新版的llama。gguf选择最常用的Q4_K_M量化,比ollama版本的原始模型小了一半。
Flying pigs~~7 天前
gpt·chatgpt·llm·llama·moe·deepseek·混合专家模式
主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)发布者:OpenAI(2022年11月30日)类型:聊天机器人模型,基于自然语言处理技术核心能力:理解语言、生成对话、撰写邮件/文案/代码、翻译等
小超同学你好7 天前
语言模型·架构·transformer·llama
Transformer 21. 从 LLaMA 到 Qwen:Rotary Position Embedding(RoPE)与 YaRN 一文读懂摘要:RoPE(Rotary Position Embedding)把「位置」编码进注意力分数的方式,从「在词向量上加一根位置向量」改成「在每一层对 Q、K 做几何旋转」。本文先讲为什么要这样设计(相对位置、外推动机),再给出二维一对的公式与为何点积只依赖相对距离的推导;最后说明 YaRN 如何在做长文外推时重缩放注意力,并与 Decoder Only Transformer、LLaMA 架构、Qwen 1 / Qwen 1.5、Qwen 2 及社区读物中的叙述对齐。
belldeep7 天前
python·ai·llama·llama-cpp
AI: llama.cpp 编译成功后,入门教程参阅上一篇:llama.cpp 如何下载、编译mkdir ggml cd ggml git clone https://github.com/ggml-org/llama.cpp cd llama.cpp 如果仅使用 CPU,不用显卡 GPU cmake -B build -DGGML_CURL=OFF cmake --build build --config Release -j 8