llama

喜欢吃豆1 天前
人工智能·语言模型·架构·大模型·llama·llama.cpp·gguf
掌握本地化大语言模型部署:llama.cpp 工作流与 GGUF 转换内核全面技术指南llama.cpp 不仅仅是一个软件工具,它更是一个关键的开源项目,其核心使命是推动大语言模型(LLM)的普及化。该项目秉持“CPU 优先”的设计哲学,通过精湛的 C++ 实现和底层优化,使得在没有昂贵高端图形处理单元(GPU)的消费级硬件上运行强大的语言模型成为可能。这一特性极大地降低了开发者、研究人员和技术爱好者探索和应用前沿人工智能技术的门槛,从而催生了一个活跃的本地化 AI 应用生态系统。
illuspas3 天前
linux·ubuntu·llama
Ubuntu 24.04下编译支持ROCm加速的llama.cppllama.cpp官方编译发布的ubuntu版本只支持cpu和vulkan版本,如需原生ROCm加速,需要自行编译。
缘友一世5 天前
人工智能·自然语言处理·nlp·transformer·llama
LLama3架构原理浅浅学学模块组成:你可能会问,这看起来像个简单的数学技巧,为什么说它非常独特和重要呢?原因有三点:如果使用两个独立的矩阵,就相当于:
我们没有完整的家7 天前
llama
批量吞吐量实测:Llama-2-7b 昇腾 NPU 六大场景数据报告测试基于华为昇腾 NPU 平台,硬件配置为 Atlas 300T Pro,搭载 4 张昇腾 910B 加速卡。软件栈使用 AscendCL 加速库,模型为 Meta 官方开源的 Llama-2-7b(FP16 精度),测试覆盖以下场景:文本生成、多轮对话、代码补全、摘要生成、翻译任务、数学推理。
asfdsfgas7 天前
人工智能·llama
从加载到推理:Llama-2-7b 昇腾 NPU 全流程性能基准Llama-2-7b 在昇腾 NPU 上的全流程性能基准测试通常涉及模型加载、数据预处理、推理速度、显存占用等关键指标。以下为昇腾 NPU(如 Ascend 910)上的典型优化方法和性能数据。
asdfsdgss7 天前
llama
FP16 vs INT8:Llama-2-7b 昇腾 NPU 精度性能基准报告关键发现:INT8在$80%$以上任务满足精度阈值,但需注意: $$ \text{量化误差} \propto \frac{\max(|W|) - \min(|W|)}{2^8} $$ 其中$W$为权重矩阵
猿代码_xiao7 天前
人工智能·深度学习·自然语言处理·chatgpt·llama·集成学习
大模型微调完整步骤( LLama-Factory)在安装之前,首先需要有一个linux服务器,并在这个服务器上完成搭建,否则在后续配置和安装时可能会出现非常多的兼容性问题。如果本地是windows机器,推荐使用windows自带的hyper-v虚拟化出来一个linux环境。
wei_shuo9 天前
大模型·llama·昇腾
Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考本文为适配大模型国产化部署需求,以 Llama-2-7b 为对象,在 GitCode Notebook 昇腾 NPU(910B)环境中完成从依赖安装到模型部署的全流程落地,并通过六大维度测评验证:单请求吞吐量稳定 15.6-17.6 tokens / 秒,batch=4 时总吞吐量达 63.33 tokens / 秒,16GB 显存即可支撑高并发,最终提供可复现的部署方案、性能基准数据及硬件选型建议,助力高效落地国产算力大模型应用。
凯子坚持 c9 天前
java·开发语言·llama
Llama-2-7b在昇腾NPU上的六大核心场景性能基准报告随着大语言模型(LLM)技术的飞速发展,其底层算力支撑硬件的重要性日益凸显。传统的GPU方案之外,以华为昇腾(Ascend)为代表的NPU(神经网络处理单元)正成为业界关注的焦点。为了全面评估昇腾NPU在实际LLM应用中的性能表现,我们进行了一项针对性的深度测评。本次测评选用业界广泛应用的开源模型Llama-2-7b,在昇腾NPU平台上进行部署、测试与分析,旨在为开发者和决策者提供一份详实的核心性能数据、具体的场景适配建议以及可靠的硬件选型参考。
落798.9 天前
经验分享·llama·1024程序员节
【在昇腾NPU上部署Llama-2-7B:从环境配置到性能测试的完整实战】本文记录了我在GitCode算力平台上,使用MindSpore框架在昇腾910B上部署Llama-2-7B大模型的完整过程。包含环境配置、模型部署、多维度性能测试、5种优化方案及真实性能数据。适合想尝试昇腾+MindSpore技术栈的开发者参考。
缘友一世9 天前
人工智能·深度学习·缓存·transformer·llama·gqa·kv缓存
LLama 3分组查询注意力与KV缓存机制要理解分组查询注意力(Group Mulit-Query Attention,GQA) 的价值,我们首先要明白它解决了什么问题。这个问题主要源于 LLM 的自回归生成方式和多头注意力机制。
skywalk816310 天前
人工智能·ubuntu·llama·ernie·brew·1024程序员节
在Ubuntu Linux安装brew 使用brew安装llama.cpp 运行文心Ernie大模型经常用Mac的都知道brew,是Mac下的包管理软件。其实这个包管理软件也可以安装在Linux系统,进而可以用brew管理和安装linux软件包。
七宝大爷11 天前
gpt·llama
大模型是什么?从 GPT 到 LLaMA 的核心概念解析大语言模型是基于深度学习的人工智能系统,通过对海量文本数据进行训练,获得理解和生成人类语言的能力。这些模型的核心目标是预测文本序列中的下一个词,从而实现对语言规律的深度掌握。
倔强的石头10612 天前
大模型·llama·昇腾
昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。
码农阿豪13 天前
llama
在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南面对动辄数万的NVIDIA高端GPU,许多开发者和团队在部署大模型时都感到“钱包一紧”。当我在为Llama 2-7B寻找一个高性价比的部署方案时,华为昇腾(Ascend)NPU走进了我的视野。其自主可控的达芬奇架构、日益完善的软件开源生态(昇腾开源仓库)以及云上可得的测试资源,构成了我选择它的三大理由。
Qiuner13 天前
语言模型·langchain·nlp·llama·ollama
快速入门LangChain4j Ollama本地部署与阿里百炼请求大模型有能力啃文档的可以看下面一手资料官方文档:https://docs.langchain4j.dev github : https://github.com/langchain4j/langchain4j twitter : https://twitter.com/intent/follow?screen_name=langchain4j
辣大辣条14 天前
llama
LLAMA-Factory Qwen3-1.7b模型微调核心特点:一站式大模型微调工具包,支持几乎所有主流开源大模型(LLaMA 系列、Qwen、ChatGLM、Mistral、Yi 等),集成了多种微调策略(全量微调、LoRA、QLoRA、IA³、Prefix Tuning 等),并提供命令行和 Web UI 操作,对新手友好。
我狸才不是赔钱货14 天前
c++·人工智能·程序人生·github·llama
AI大模型“战国策”:主流LLM平台简单介绍本系列旨在系统性地重构我们的知识图谱,将每一个孤立的技术点,都精准地放入其所属的上下文和知识网络中。我们追求的不是零散的“笔记”,而是一座坚实的、互相连接的“知识圣殿”。
临街的小孩16 天前
llama·argflow
Docker 容器访问宿主机 Ollama 服务配置教程当在 Docker 容器中的应用(如 RAGFlow)尝试连接宿主机上的 Ollama 服务时,会遇到以下错误:
鸿蒙小白龙16 天前
人工智能·语言模型·harmonyos·鸿蒙·鸿蒙系统·llama·open harmony
OpenHarmony平台大语言模型本地推理:llama深度适配与部署技术详解大语言模型(LLM)正从云端向边缘设备渗透,以满足低延迟、高隐私和离线使用的需求。OpenHarmony 作为一个功能强大的分布式操作系统,为在各类终端设备上运行 AI 模型提供了理想的平台。llama.cpp 是一个广受欢迎的 C/C++ 实现,它使得在消费级硬件上运行 LLaMA 系列模型成为可能。 ohosllama.cpp 项目正是将 llama.cpp 的核心能力引入 OpenHarmony 生态的桥梁。本指南将系统性地讲解该项目的实现原理,并带领开发者完成从源码整合、构建配置、NAPI 接口封