llama

木卫二号Coding6 小时前
linux·llama
第七十九篇-E5-2680V4+V100-32G+llama-cpp编译运行+Qwen3-Next-80Bnvcc --versioncmake -version如果版本不合理需要重新安装可以问问AI调整参数
lili-felicity7 小时前
人工智能·语言模型·llama
CANN优化LLaMA大语言模型推理:KV-Cache与FlashAttention深度实践大语言模型(LLM)的推理性能一直是AIGC应用的核心挑战之一。LLaMA作为Meta推出的开源大语言模型,其推理过程涉及大量的矩阵乘法、注意力计算和内存访问操作。CANN针对LLaMA推理场景推出了专门的优化方案,通过KV-Cache技术减少重复计算,通过FlashAttention降低内存占用,通过算子融合提升计算效率。本文将深入剖析CANN如何优化LLaMA推理,重点讲解KV-Cache、FlashAttention和算子融合的具体实现。
大傻^2 天前
llama·大模型量化
大模型基于llama.cpp量化详解llama.cpp 是一个高性能的 LLM 推理库,支持在各种硬件(包括 CPU 和 GPU)上运行量化后的大语言模型。本文档详细介绍如何使用 llama.cpp 将 HuggingFace 格式的模型转换为 GGUF 格式,并进行不同程度的量化。
大傻^2 天前
llama·模型微调
大模型微调-基于llama-factory详解使用LoRA时,可以将其原理理解为在原有知识基础上有选择性地对特定领域参数进行微调。就像原本掌握数学、语文等知识,现在想学习天文,不必从零开始学习所有知识,而是专注新增领域的学习和调整。
空中楼阁,梦幻泡影2 天前
人工智能·gpt·llama
主流4 大模型(GPT、LLaMA、DeepSeek、QWE)的训练与推理算力估算实例详细数据以下选取GPT-3(大参数量通用大模型)、LLaMA-7B(轻量化开源大模型)、DeepSeek-67B(千亿级推理优化大模型)、QWE-13B(自定义中等参数量大模型),分别演示训练和推理场景的算力估算,贴合实际项目场景,参数参考行业常规配置,沿用前文核心公式,确保可复用、可落地。
蓝田生玉1232 天前
论文阅读·笔记·llama
LLaMA论文阅读笔记论文:https://arxiv.org/pdf/2302.139711、为什么要做这个研究(理论走向和目前缺陷) ? 之前的效果的模型要么不开源,要么用了私有数据训练,完全开源的效果都不咋地。 2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ? 用完全开源的数据(1.4万亿tokens),并没有大的离谱模型(7B到65B), 做了一系列前面研究做的优化,如RMSNorm的Pre-normalization减少计算量,FFN的激活函数替换为SwiGLU增强表现能力更好,旋转位置编码RoPE提升模型
木卫二号Coding2 天前
开发语言·python·llama
第七十七篇-V100+llama-cpp-python-server+Qwen3-30B+GGUF如有需要再自己安装server.py
木卫二号Coding2 天前
开发语言·python·llama
第七十六篇-V100+llama-cpp-python+Qwen3-30B+GGUF等待2~3分钟 Successfully built llama-cpp-python详细速度后面测试,感知速度挺快
姚华军3 天前
windows·ai·llama·llama-factory
在本地(Windows环境)部署LLaMa-Factory,进行模型微调步骤!!!一、准备环境二、python环境准备三、CUDA环境安装四、LLaMA-Factory安装五、运行LLaMA-Factory
Honmaple3 天前
llama
openclaw使用llama.cpp 本地大模型部署教程本教程基于实际操作整理,适用于 Windows WSL2 环境全程使用 openclaw 帮我搭建大模型
love530love3 天前
人工智能·windows·大模型·llama·llama.cpp·gguf·cuda 加速
Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天)在本地快速部署大模型进行离线聊天,llama.cpp 是轻量化、高性能的首选工具,尤其是 CUDA 版本能充分利用 NVIDIA 显卡的算力,大幅提升模型推理速度。本文将详细记录在 Windows 11 系统中,从环境准备、CUDA 版 llama.cpp 配置,到实现系统全局调用、快速运行 GGUF 格式模型的完整步骤,全程基于实际操作验证,适配 RTX 3090 等 NVIDIA 显卡,新手也能轻松上手。
feasibility.4 天前
人工智能·python·大模型·nlp·llama·多模态·具身智能
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例克隆https://github.com/QwenLM/Qwen3-VL项目,方便之后研究阿里官方的代码,当然你也可以不克隆项目,毕竟Llama-Factory这个一站式大模型训练与微调平台对大多数个人开发者使用主流模型是简单且够用的。
问道飞鱼4 天前
llama·知识库·chroma·ollama
【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库原始文档 (PDF/Word/TXT/Markdown)文档解析 & 分块向量化 (Embedding)
凉忆-4 天前
python·pip·llama
llama-factory训练大模型提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了AI大模型训练学习的基础内容。
zhangfeng11335 天前
人工智能·llama
大模型微调时 Firefly(流萤)和 LlamaFactory(LLaMA Factory)这两个工具/框架之间做出合适的选择你想知道在进行大模型微调时,该如何在 Firefly(流萤)和 LlamaFactory(LLaMA Factory)这两个工具/框架之间做出合适的选择,核心是想明确两者的适用场景、优势差异,从而匹配自己的微调需求。
love530love5 天前
人工智能·windows·python·llama·aitechlab·cpp-python·cuda版本
技术复盘:llama-cpp-python CUDA 编译实战 (Windows)https://github.com/abetlen/llama-cpp-pythonFlash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记(2026年1月版)
玄同7655 天前
人工智能·语言模型·自然语言处理·langchain·交互·llama·ollama
Llama.cpp 全实战指南:跨平台部署本地大模型的零门槛方案【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
zhangfeng11335 天前
人工智能·语言模型·开源·llama
大模型微调主要框架 Firefly vs LLaMA Factory 全方位对比表结合你做AI生物医药、小分子药物筛选、论文相关垂类微调的需求,给出针对性结论:核心适配理由:仅适用于:
zhangfeng11336 天前
人工智能·llama
LLaMA Factory 完全支自定义词库(包括自定义微调数据集、自定义领域词汇/词表)你想确认 LLaMA Factory 是否支持自定义词库(包括自定义微调数据集、自定义领域词汇/词表),答案是完全支持,而且它对自定义词库的适配非常友好,不管是自定义微调用的数据集(最常用的“词库”),还是扩展模型的词汇表(新增专属token),都有简洁的实现方式。下面我会分场景详细说明具体操作方法,你可以直接照着做。
小毅&Nora6 天前
人工智能·架构·llama
【人工智能】【大模型】从厨房到实验室:解密LLaMA架构如何重塑大模型世界想象一下,你正在准备一场盛大的晚宴。你有各种各样的顶级食材,但是如果没有一个合理的厨房布局、高效的烹饪工具和科学的工作流程,那么即便有再多的好食材,也难以迅速地将其转变为一道道精美的佳肴。大语言模型的架构设计也是同样的道理,它就如同是 AI“厨师” 高效、准确地 “烹饪” 出人类可理解文本的蓝图。