npu

IC修真院3 天前
gpu·ic设计·芯片·微电子·数字ic·npu
高赞问题:NPU可不可以代替GPU?先说结论:NPU 不能完全代替 GPU,二者是「互补关系」,不是「取代关系」。一句话分清NPU和GPU的定位:
派勤电子6 天前
gpu·fpga·npu·工控机·ai工控机·fpga工控机·工业级工控机
2026 支持 FPGA 工控机 AI 加速应用场景详解虽然 NPU 和 GPU 在 AI 加速方面表现出色,但在一些特殊的应用场景中,FPGA 仍然具有不可替代的优势。FPGA 具有可编程性强、延迟低、并行度高、功耗低等优点,特别适合一些定制化的 AI 加速应用。
嗝o゚18 天前
人工智能·目标检测·目标跟踪·npu·cann
昇腾CANN ops-cv 仓:昇腾NPU上的目标检测算子实战YOLO 系列在昇腾NPU上跑推理,NMS、ROIAlign 这些后处理算子的性能经常拖后腿。ops-cv 仓是 CANN 的计算机视觉类算子库,专门处理这些后处理计算。这篇文章拿 YOLOv8 做例子,实战演示一遍这些算子怎么用。
谷公子的藏经阁24 天前
人工智能·ai·cpu·npu·技术演进
XPU们的未来猜测当前芯片应用场景,主要集中在训练、推理与调度这三大方向。在训练环节,GPU 和 TPU 依旧是主力军,承担着繁重的训练任务。而在边侧与端侧使用NPU负责着推理工作。至于 CPU,它如同整个系统的总指挥,仍然发挥着调度的关键作用。
每天进步一点点️2 个月前
卷积神经网络·npu·拓扑架构·soc片上系统
AI芯片NPU子系统架构解析:从计算核心到数据流转这张图其实展示了两个完全一样的“计算集群“(NPC0和NPC1),这是为了提供双核冗余或更高的算力。以NPC0为例,来梳理架构
深念Y2 个月前
深度学习·架构·张量·npu·计算机架构·ai芯片·计算范式
从张量到微分方程:AI计算架构的底层思考笔记在AI技术飞速发展的今天,很多工程实践背后隐藏着深刻的计算哲学问题。从如何在低资源设备上跑语音识别,到NPU为什么省电,再到神经网络是否必须用张量,这些问题的答案指向一个根本性的认知:我们正在从离散的、逻辑的计算范式,走向连续的、物理的计算范式。
蛐蛐蛐3 个月前
人工智能·pytorch·python·npu
在昇腾310P推理服务器上安装CANN和PyTorch之前一直没怎么用过昇腾这套架构,今天简单试一下。首先,在一个比较新的服务器上,运行:可以看到NPU型号是310P3。我想试试能否用Conda安装(在Nvidia平台上用得最多就是Conda环境了,和CUDA版本配合得很好),所以运行:
北京迅为4 个月前
linux·人工智能·嵌入式·npu
《【北京迅为】itop-3568开发板NPU使用手册》- 第 7章 使用RKNN-Toolkit-lite2《【北京迅为】itop-3568开发板NPU使用手册》系统性地介绍了RKNPU从入门到应用开发的全流程知识体系。本手册以“认识工具—构建环境—模型转换—部署实践”为主线,为开发者在Linux和Android双平台上提供完整的NPU应用开发指导。
是Yu欸5 个月前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
是Yu欸5 个月前
昇腾·npu·deepseek·16卡
昇腾双机16卡部署DeepSeek-V3.2 (W8A8) 实战指南🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
是Yu欸5 个月前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
是店小二呀5 个月前
人工智能·pytorch·深度学习·npu
在 AtomGit 昇腾 Atlas 800T上解锁 SGLang:零成本打造高性能推理服务摘要:大模型的“战火”已从参数竞赛转向了推理性能的极致压榨。如何在算力上实现 0Day 模型的极速推理?本文将以开发者视角,基于 AtomGit 提供的免费昇腾 Atlas 800T 算力,实战部署最新的 Qwen2.5-7B-Instruct。我们将跳过常规的 Transformers,直接挑战适配昇腾的 SGLang 高性能框架,利用其特有的 RadixAttention 技术在 RAG 场景下实现 5倍+ 的吞吐跃,并完成 OpenAI 兼容接口的服务化封装与压测。
是店小二呀5 个月前
人工智能·npu
解构 Qwen2 在昇腾 Atlas 800T 上的极限性能:基于 SGLang 的深度评测摘要:当一个顶尖的开源模型遇上一款旗舰级的算力,它们的结合能爆发出多大的能量?本文将不再进行框架间的横向对比,而是采用当前性能最优的推理引擎 SGLang 作为“性能探针”,对 Qwen2-7B-Instruct 在 AtomGit 昇腾 Atlas 800T 平台上的各项性能指标进行一次深度、垂直的性能剖析。我们将从吞吐量、多维度延迟、显存占用三大核心指标入手,量化分析 Qwen2 在 NPU 上的真实表现,为开发者提供一份关于“模型+算力”组合的权威性能数据参考。
是店小二呀5 个月前
gpt·npu
昇腾 NPU 环境下 GPT-2 模型本地部署全指南(含踩坑排错)在昇腾 Atlas 系列 AI 处理器上部署开源大模型,核心是基于torch_npu适配 PyTorch 生态,充分发挥昇腾硬件的算力优势。昇腾作为国产化 AI 算力基础设施的核心载体,凭借安全可控的技术栈,已在政务、金融、能源、交通等关键领域大规模落地,为开源模型的国产化部署提供了可靠的硬件支撑。
空白诗5 个月前
人工智能·ai·语言模型·npu
昇腾 NPU 落地 Llama3-8B:模型获取到数学解题推理的全流程实战对我这种小白来说,部署大模型最头疼的就是环境配置——之前本地折腾时,要么驱动装不对,要么依赖搞混,半天都没头绪。
东南门吹雪6 个月前
人工智能·cache·昇腾·npu·一致性协议
AI芯片-LLM算子-CPU-Cache问:昇腾答:已深度思考(用时5秒)好的,用户突然只发了“昇腾”两个字,我得先确定他到底想知道什么。首先,得看看对话历史有没有上下文,但这里历史是空的,说明可能是第一次询问。
虚伪的空想家7 个月前
ubuntu·华为·架构·虚拟化·kvm·npu·国产化适配
华为A800I A2 arm64架构鲲鹏920cpu的ubuntu22.04 tls配置直通的grub配置ubuntu的grub文件配置结合配置链接:https://yunwei.blog.csdn.net/article/details/153411516?fromshare=blogdetail&sharetype=blogdetail&sharerId=153411516&sharerefer=PC&sharesource=qq_42534026&sharefrom=from_link
羊城迷鹿8 个月前
昇腾·npu·vllm
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录本文记录了华为NPU服务器驱动失效问题的完整排查与解决过程。服务器重启后npu-smi info命令失效,经诊断发现是内核自动升级导致当前运行的5.15.0-153版本缺少Ascend驱动模块。通过对比/lib/modules目录下各内核版本的驱动文件,确认5.15.0-144-generic版本包含完整的24个驱动模块。随后修改GRUB配置回退至该内核版本,并通过锁定内核包和禁用自动升级机制防止问题再次发生。在尝试部署vLLM框架时,遇到了NumPy版本冲突、缺少依赖模块、C++编译环境配置、CANN
虚伪的空想家8 个月前
linux·运维·服务器·显卡·npu·huawei·鲲鹏920
HUAWEI A800I A2 aarch64架构服务器鲲鹏920开启虚拟化功能国产虚拟化适配的最初操作配置,根据服务器以及硬件选择对应的配置参考:https://www.hiascend.com/document/detail/zh/Atlas%20200I%20A2/2520/re/virtualmachineconfiguration/configureg_0006.html
suyong_yq8 个月前
ai·嵌入式·arm·npu·ethos-u
使用Vela编译器开发Ethos-U NPU流程导引Ethos-U Vela 是 Arm开发的一款软件工具,可将 TensorFlow Lite(TensorFlow Lite for Microcontroller 是 TensorFlow LIte的一个子集)模型编译为可在 Ethos-U NPU上运行的优化版本。Vela 以 TensorFlow Lite模型为输入,应用包括内存优化和层融合技术在内的优化手段,编译生成专门针对 Ethos-U 架构优化的二进制文件。这一优化的二进制文件最大限度地利用了 Ethos-U NPU 的硬件特性,以高效执行机