技术栈
llama
木枷
2 天前
人工智能
·
llama
多GPU和单GPU运行llama的时间差
在今天测试的时候,遇到了非常奇怪的问题。之前的llama推理耗时40-50秒,而今晚的llama推理耗时580-590秒。
赴前尘
2 天前
docker
·
llama
docker 安装并使用 ollama
迈火
3 天前
人工智能
·
gpt
·
stable diffusion
·
aigc
·
音视频
·
midjourney
·
llama
ComfyUI - ELLA:解锁ComfyUI图像生成新境界的神奇插件
ELLA Image GeneratorStyle Preset SelectorColor Palette Adjuster
Coder个人博客
4 天前
人工智能
·
自动驾驶
·
llama
Llama.cpp GGML 模块深度分析
团队博客: 汽车电子社区GGML (Georgi’s Gorgious Machine Learning) 是 llama.cpp 项目的底层张量计算库,提供了高性能的张量操作、量化算法和多硬件后端支持。作为整个推理引擎的基础,GGML 负责所有底层的数值计算和硬件适配。
牛奶咖啡.854
5 天前
语言模型
·
llm
·
llama
·
rl
·
ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】
目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
白云千载尽
5 天前
人工智能
·
llama
LLaMA-Factory 入门(二): 深入技术解析
本文主要来学习一下大语言模型微调的核心概念、主流方法、数据工程、硬件要求及评估体系。参数高效微调,只更新极少量的参数(通常 < 1%),冻结大部分原始参数。适合消费级显卡(如 RTX 4090)。
Coder个人博客
6 天前
人工智能
·
自动驾驶
·
llama
Llama.cpp 整体架构分析
团队博客: 汽车电子社区llama.cpp 是一个高性能的大语言模型推理引擎,用 C++ 编写,专注于在多种硬件平台上高效运行 LLM 推理。该项目由 Georgi Gerganov 创建,已成为业界领先的开源 LLM 推理框架之一。
Coder个人博客
6 天前
人工智能
·
自动驾驶
·
llama
Llama.cpp Tools 实用工具深度分析
团队博客: 汽车电子社区tools/ 目录是 llama.cpp 项目的实用工具集,提供了一整套生产级别的命令行工具,涵盖了模型推理、性能评估、模型优化、部署服务等完整的工作流程。这些工具不仅为开发者提供了便利的操作接口,更是 llama.cpp 项目工程化成熟度的重要体现。
Coder个人博客
6 天前
人工智能
·
自动驾驶
·
llama
Llama.cpp Examples 示例程序深度分析
团队博客: 汽车电子社区examples/ 目录是 llama.cpp 项目的示例程序集合,为开发者提供了从入门到专业级别的完整学习资源。该目录包含了50多个示例程序,涵盖了基础推理、高级优化、生产部署、研究实验等多个维度,是学习LLM推理技术的宝贵资源库。
白云千载尽
6 天前
人工智能
·
算法
·
大模型
·
微调
·
llama
LLaMA-Factory 入门(一):Ubuntu20 下大模型微调与部署
参考链接:LLaMA-Factory 是一个面向大语言模型(LLM)的高效训练与微调框架,专为简化 LLaMA 系列以及各类开源大模型的训练流程而设计。它以“开箱即用、灵活高效”为核心理念,提供从数据准备、参数高效微调(PEFT)、训练配置管理到模型部署的一站式解决方案。
Elaine336
6 天前
人工智能
·
lora
·
微调
·
llama
·
llama-factory
基于 Qwen2.5 与 LLaMA-Factory 的 LoRA 微调实战
本文将详细介绍如何在 Windows 环境下(单卡 8G 显存),利用 LLaMA-Factory 框架对 Qwen2.5-1.5B 模型进行 LoRA 微调,并通过 Ollama 实现本地部署。我们将通过人设注入(Identity Injection),把通用的 AI 模型训练成一位名为 Elaine 的专属助手。
小杨互联网
7 天前
人工智能
·
pytorch
·
llama
PyTorch分布式训练实战:从零构建Llama模型多GPU训练系统
本文将手把手教你如何实现完整的Llama模型分布式训练系统,涵盖模型架构、数据预处理、多GPU并行训练等核心技术。
Token_w
7 天前
mysql
·
llama
·
sglang
Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测
随着大模型在各类智能应用中的广泛应用,高效的推理硬件成为关键瓶颈。昇腾 NPU(Ascend Neural Processing Unit)凭借其高算力、低能耗以及对 SGLang 的深度优化,能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例,通过在昇腾 NPU 上的实测,展示其在吞吐量、延迟和资源利用方面的优势,并探索可行的优化策略,为开发者在今后的开发中提供可参考的案例。
DARLING Zero two♡
8 天前
华为
·
llama
·
gpu算力
拒绝“环境劝退”:Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录
资源导航:昇腾模型开源社区 : https://atomgit.com/Ascend免费算力申请 : https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1?source_module=search_result_model (建议关注昇腾社区活动或 GitCode/ModelArts 提供的体验实例)
LucianaiB
8 天前
cpu
·
llama
·
昇腾
昇腾NPU实战:Llama-2-7B大模型的部署全流程与性能深度分析
人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
Pocker_Spades_A
8 天前
llama
昇腾 NPU 算力平台下 Llama-2-7B 大模型部署与性能实测报告
目录前言一、环境配置1.1 测试目的1.2 测试范围1.3 选择配置并启动 Notebook二、测试环境详情
EterNity_TiMe_
9 天前
数据库
·
llama
·
昇腾
·
atlas 800t
·
实战部署
从 0 到 1:Llama 3-8B 在昇腾 Atlas 800T 上的推理调优与算力榨干指南
前言:前段时间在 GitCode 中注意到 Notebook 功能可以直接进行大模型开发,于是抱着试试看效果的心态,决定尝试在云端环境部署一次 Meta-Llama-3-8B-Instruct 模型。整个过程比预期顺利得多,但也遇到了一些容易踩坑的问题,因此整理成了本文,希望作为一份从零开始就能照着做的完整部署教程。
不爱学英文的码字机器
9 天前
人工智能
·
pytorch
·
llama
基于昇腾 NPU 部署 Llama-3-8B 实战教程:从环境搭建到构建昇腾问答智能体
算力申请:https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1
是店小二呀
9 天前
llama
从 CUDA 到 CANN:昇腾 NPU 环境下 Llama-2 大模型部署
在人工智能的浩瀚星河中,算力是驱动一切的引擎。长久以来,NVIDIA GPU 凭借其强大的通用并行计算能力和成熟的 CUDA 生态,几乎垄断了深度学习训练与推理的市场。然而,随着 AI 模型参数量的爆炸式增长(从 ResNet 的千万级到 GPT-4 的万亿级),通用 GPU 在能效比和特定算子优化上逐渐显露出瓶颈。
红苕稀饭666
9 天前
论文阅读
·
llama
Llama-AVSR论文阅读
2025.31.摘要background 多模态大语言模型(MLLMs)在多模态理解方面表现出色。在音频和语音领域,LLM结合音频编码器已在自动语音识别(ASR)上取得了SOTA效果 。