npu

是Yu欸7 天前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
是Yu欸9 天前
昇腾·npu·deepseek·16卡
昇腾双机16卡部署DeepSeek-V3.2 (W8A8) 实战指南🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
是Yu欸9 天前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
是店小二呀13 天前
人工智能·pytorch·深度学习·npu
在 AtomGit 昇腾 Atlas 800T上解锁 SGLang:零成本打造高性能推理服务摘要:大模型的“战火”已从参数竞赛转向了推理性能的极致压榨。如何在算力上实现 0Day 模型的极速推理?本文将以开发者视角,基于 AtomGit 提供的免费昇腾 Atlas 800T 算力,实战部署最新的 Qwen2.5-7B-Instruct。我们将跳过常规的 Transformers,直接挑战适配昇腾的 SGLang 高性能框架,利用其特有的 RadixAttention 技术在 RAG 场景下实现 5倍+ 的吞吐跃,并完成 OpenAI 兼容接口的服务化封装与压测。
是店小二呀13 天前
人工智能·npu
解构 Qwen2 在昇腾 Atlas 800T 上的极限性能:基于 SGLang 的深度评测摘要:当一个顶尖的开源模型遇上一款旗舰级的算力,它们的结合能爆发出多大的能量?本文将不再进行框架间的横向对比,而是采用当前性能最优的推理引擎 SGLang 作为“性能探针”,对 Qwen2-7B-Instruct 在 AtomGit 昇腾 Atlas 800T 平台上的各项性能指标进行一次深度、垂直的性能剖析。我们将从吞吐量、多维度延迟、显存占用三大核心指标入手,量化分析 Qwen2 在 NPU 上的真实表现,为开发者提供一份关于“模型+算力”组合的权威性能数据参考。
是店小二呀13 天前
gpt·npu
昇腾 NPU 环境下 GPT-2 模型本地部署全指南(含踩坑排错)在昇腾 Atlas 系列 AI 处理器上部署开源大模型,核心是基于torch_npu适配 PyTorch 生态,充分发挥昇腾硬件的算力优势。昇腾作为国产化 AI 算力基础设施的核心载体,凭借安全可控的技术栈,已在政务、金融、能源、交通等关键领域大规模落地,为开源模型的国产化部署提供了可靠的硬件支撑。
空白诗14 天前
人工智能·ai·语言模型·npu
昇腾 NPU 落地 Llama3-8B:模型获取到数学解题推理的全流程实战对我这种小白来说,部署大模型最头疼的就是环境配置——之前本地折腾时,要么驱动装不对,要么依赖搞混,半天都没头绪。
东南门吹雪1 个月前
人工智能·cache·昇腾·npu·一致性协议
AI芯片-LLM算子-CPU-Cache问:昇腾答:已深度思考(用时5秒)好的,用户突然只发了“昇腾”两个字,我得先确定他到底想知道什么。首先,得看看对话历史有没有上下文,但这里历史是空的,说明可能是第一次询问。
虚伪的空想家2 个月前
ubuntu·华为·架构·虚拟化·kvm·npu·国产化适配
华为A800I A2 arm64架构鲲鹏920cpu的ubuntu22.04 tls配置直通的grub配置ubuntu的grub文件配置结合配置链接:https://yunwei.blog.csdn.net/article/details/153411516?fromshare=blogdetail&sharetype=blogdetail&sharerId=153411516&sharerefer=PC&sharesource=qq_42534026&sharefrom=from_link
羊城迷鹿3 个月前
昇腾·npu·vllm
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录本文记录了华为NPU服务器驱动失效问题的完整排查与解决过程。服务器重启后npu-smi info命令失效,经诊断发现是内核自动升级导致当前运行的5.15.0-153版本缺少Ascend驱动模块。通过对比/lib/modules目录下各内核版本的驱动文件,确认5.15.0-144-generic版本包含完整的24个驱动模块。随后修改GRUB配置回退至该内核版本,并通过锁定内核包和禁用自动升级机制防止问题再次发生。在尝试部署vLLM框架时,遇到了NumPy版本冲突、缺少依赖模块、C++编译环境配置、CANN
虚伪的空想家3 个月前
linux·运维·服务器·显卡·npu·huawei·鲲鹏920
HUAWEI A800I A2 aarch64架构服务器鲲鹏920开启虚拟化功能国产虚拟化适配的最初操作配置,根据服务器以及硬件选择对应的配置参考:https://www.hiascend.com/document/detail/zh/Atlas%20200I%20A2/2520/re/virtualmachineconfiguration/configureg_0006.html
suyong_yq3 个月前
ai·嵌入式·arm·npu·ethos-u
使用Vela编译器开发Ethos-U NPU流程导引Ethos-U Vela 是 Arm开发的一款软件工具,可将 TensorFlow Lite(TensorFlow Lite for Microcontroller 是 TensorFlow LIte的一个子集)模型编译为可在 Ethos-U NPU上运行的优化版本。Vela 以 TensorFlow Lite模型为输入,应用包括内存优化和层融合技术在内的优化手段,编译生成专门针对 Ethos-U 架构优化的二进制文件。这一优化的二进制文件最大限度地利用了 Ethos-U NPU 的硬件特性,以高效执行机
GPUStack3 个月前
大模型·llm·昇腾·npu·分布式推理
昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署在昇腾 NPU 上部署超大规模模型,往往面临一个现实难题:目前主流的官方推理引擎 MindIE 的多机分布式推理虽然性能表现尚可,但配置流程异常复杂。从环境准备、配置初始化到参数细节调整,每一步都需要格外谨慎,否则极易因细节遗漏或配置错误而导致部署失败,问题定位也十分困难。
意法半导体STM325 个月前
单片机·ai·npu·st·stm32n6·边缘人工智能
STM32N6引入NPU,为边缘AI插上“隐形的翅膀”2025年的春天格外特别。伴随着人形机器人、DeepSeek的强势刷屏,AI成了最有前景的赛道。万物皆可AI,万物也在寻觅用上AI或者让AI“转正”的“aha moment”。
Ronin-Lotus6 个月前
人工智能·深度学习·npu·昇腾 cann
深度学习篇---昇腾NPU&CANN 工具包昇腾NPU 是华为推出的神经网络处理器,具有强大的 AI 计算能力,而 CANN 工具包则是面向 AI 场景的异构计算架构,用于发挥昇腾 NPU 的性能优势。以下是详细介绍:
zjun30217 个月前
arm开发·npu·ascend·step-audio
在ARM+Ascend NPU上适配Step-Audio模型Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点: • 1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat。 • 高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,
极术社区8 个月前
人工智能·npu
【“星睿O6”AI PC开发套件评测】+ MTCNN 开源模型部署和测试对比经过了前几篇文章的铺垫,从搭建 tensorflow 开发环境,到测试官方 onnx 模型部署到 NPU,接着部署自己的 mnist tensorflow 模型到 NPU。这是一个从易到难的过程,本篇文章介绍开源复杂的人脸识别模型 mtcnn 到 “星睿O6” NPU 的部署和CPU对比测试。
Hello Mr.Z1 年前
yolo·npu·香橙派5
在香橙派5 NPU上使用Yolov5【香橙派】使用NPU部署Yolov5的完整解决方案 香橙派使用NPU部署Yolov5的完整解决方案 Orangepi 5 Pro(香橙派5pro)部署yolov5 RK3588实战:调用npu加速,yolov5识别图像、ffmpeg发送到rtmp服务器 香橙派5 RK3588 yolov5模型转换rknn及部署踩坑全记录 orangepi 5
问道飞鱼1 年前
cpu·gpu·npu
【知识科普】CPU,GPN,NPU知识普及
华为云开发者联盟1 年前
ai·大模型·flux·昇腾·npu
开源flux适配昇腾NPU分享,体验120亿参数AI文生图模型这一期我们分享一位开源开发者参与flux适配昇腾NPU的实践经验,欢迎广大开发者对华为技术栈适配进行讨论。