npu

Arm Ethos-U65 介绍（1）架构、数据格式与算子Arm Ethos-U 系列是 Arm 为微处理器系统实现边缘计算设计的 NPU IP 核，旨在以极低的功耗和芯片面积高效加速机器学习推理任务，推荐和Cortex-M处理器搭配，当前包括U55、U65、U85三款产品。

高级打杂工程师-伍六六

【昇腾】本地 27B 编程模型接入 Claude Code 实战：Qwopus3.6-27B-Coder 在 vLLM-Ascend 上的部署与踩坑四张 910B4 跑 27B 模型，接入 Claude Code，效果比预期要好——虽然慢Qwopus 是一个由社区开发者 Jack Rong 自费训练的开源模型系列，名字是 Qwen + Opus 的组合——用高质量推理轨迹对 Qwen 基座模型做微调，目标是在本地硬件上达到接近 Claude Opus 的推理和编程能力。

指尖在键盘上舞动

RKNN 模型部署：onnx转rknn后精度下降 —— 精度调优与问题排查问题：pytorch->onnx(sim)->rknn转换，rknn跑在RK3588 Ubuntu Arm Npu架构上，精度断崖式下降，20%~30%甚至更大。

高赞问题：NPU可不可以代替GPU？先说结论：NPU 不能完全代替 GPU，二者是「互补关系」，不是「取代关系」。一句话分清NPU和GPU的定位：

2026 支持 FPGA 工控机 AI 加速应用场景详解虽然 NPU 和 GPU 在 AI 加速方面表现出色，但在一些特殊的应用场景中，FPGA 仍然具有不可替代的优势。FPGA 具有可编程性强、延迟低、并行度高、功耗低等优点，特别适合一些定制化的 AI 加速应用。

昇腾CANN ops-cv 仓：昇腾NPU上的目标检测算子实战YOLO 系列在昇腾NPU上跑推理，NMS、ROIAlign 这些后处理算子的性能经常拖后腿。ops-cv 仓是 CANN 的计算机视觉类算子库，专门处理这些后处理计算。这篇文章拿 YOLOv8 做例子，实战演示一遍这些算子怎么用。

谷公子的藏经阁

XPU们的未来猜测当前芯片应用场景，主要集中在训练、推理与调度这三大方向。在训练环节，GPU 和 TPU 依旧是主力军，承担着繁重的训练任务。而在边侧与端侧使用NPU负责着推理工作。至于 CPU，它如同整个系统的总指挥，仍然发挥着调度的关键作用。

每天进步一点点️

AI芯片NPU子系统架构解析：从计算核心到数据流转这张图其实展示了两个完全一样的“计算集群“（NPC0和NPC1），这是为了提供双核冗余或更高的算力。以NPC0为例，来梳理架构

从张量到微分方程：AI计算架构的底层思考笔记在AI技术飞速发展的今天，很多工程实践背后隐藏着深刻的计算哲学问题。从如何在低资源设备上跑语音识别，到NPU为什么省电，再到神经网络是否必须用张量，这些问题的答案指向一个根本性的认知：我们正在从离散的、逻辑的计算范式，走向连续的、物理的计算范式。

在昇腾310P推理服务器上安装CANN和PyTorch之前一直没怎么用过昇腾这套架构，今天简单试一下。首先，在一个比较新的服务器上，运行：可以看到NPU型号是310P3。我想试试能否用Conda安装（在Nvidia平台上用得最多就是Conda环境了，和CUDA版本配合得很好），所以运行：

《【北京迅为】itop-3568开发板NPU使用手册》- 第 7章使用RKNN-Toolkit-lite2《【北京迅为】itop-3568开发板NPU使用手册》系统性地介绍了RKNPU从入门到应用开发的全流程知识体系。本手册以“认识工具—构建环境—模型转换—部署实践”为主线，为开发者在Linux和Android双平台上提供完整的NPU应用开发指导。

vLLM 0.11.0 新特性解析：视觉推理精度跃升与长序列性能革新版权声明：本文为原创，遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要：在大模型多模态与长序列推理需求并进的时代，vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性：通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率，以及通过算法与内存管理的协同优化将 Token 选择范围（TOPK）从 1024 推升至新高度，从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理，更结合性能对比数据，为开发者提供从理解到应用的

昇腾双机16卡部署DeepSeek-V3.2 (W8A8) 实战指南🌈你好呀！我是是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀！我是是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

是店小二呀

在 AtomGit 昇腾 Atlas 800T上解锁 SGLang：零成本打造高性能推理服务摘要：大模型的“战火”已从参数竞赛转向了推理性能的极致压榨。如何在算力上实现 0Day 模型的极速推理？本文将以开发者视角，基于 AtomGit 提供的免费昇腾 Atlas 800T 算力，实战部署最新的 Qwen2.5-7B-Instruct。我们将跳过常规的 Transformers，直接挑战适配昇腾的 SGLang 高性能框架，利用其特有的 RadixAttention 技术在 RAG 场景下实现 5倍+ 的吞吐跃，并完成 OpenAI 兼容接口的服务化封装与压测。

是店小二呀

解构 Qwen2 在昇腾 Atlas 800T 上的极限性能：基于 SGLang 的深度评测摘要：当一个顶尖的开源模型遇上一款旗舰级的算力，它们的结合能爆发出多大的能量？本文将不再进行框架间的横向对比，而是采用当前性能最优的推理引擎 SGLang 作为“性能探针”，对 Qwen2-7B-Instruct 在 AtomGit 昇腾 Atlas 800T 平台上的各项性能指标进行一次深度、垂直的性能剖析。我们将从吞吐量、多维度延迟、显存占用三大核心指标入手，量化分析 Qwen2 在 NPU 上的真实表现，为开发者提供一份关于“模型+算力”组合的权威性能数据参考。

是店小二呀

昇腾 NPU 环境下 GPT-2 模型本地部署全指南（含踩坑排错）在昇腾 Atlas 系列 AI 处理器上部署开源大模型，核心是基于torch_npu适配 PyTorch 生态，充分发挥昇腾硬件的算力优势。昇腾作为国产化 AI 算力基础设施的核心载体，凭借安全可控的技术栈，已在政务、金融、能源、交通等关键领域大规模落地，为开源模型的国产化部署提供了可靠的硬件支撑。

昇腾 NPU 落地 Llama3-8B：模型获取到数学解题推理的全流程实战对我这种小白来说，部署大模型最头疼的就是环境配置——之前本地折腾时，要么驱动装不对，要么依赖搞混，半天都没头绪。

东南门吹雪

AI芯片-LLM算子-CPU-Cache问：昇腾答：已深度思考(用时5秒)好的，用户突然只发了“昇腾”两个字，我得先确定他到底想知道什么。首先，得看看对话历史有没有上下文，但这里历史是空的，说明可能是第一次询问。

虚伪的空想家

华为A800I A2 arm64架构鲲鹏920cpu的ubuntu22.04 tls配置直通的grub配置ubuntu的grub文件配置结合配置链接：https://yunwei.blog.csdn.net/article/details/153411516?fromshare=blogdetail&sharetype=blogdetail&sharerId=153411516&sharerefer=PC&sharesource=qq_42534026&sharefrom=from_link