ascend

IDIOT___IDIOT6 小时前
ascend·yolo26
Yolo26 模型转换 onnx 再转换 om 模型到 Ascend310B4 运行经过原来以为说什么 yolo26 转换成 om 模型不能在昇腾上面运行,实际呢就是把训练好的模型转换好就行了,这里只要昇腾芯片对 onnx 模型版本的要求(一般 opset = 11 较为稳定),以及昇腾芯片能够适配的 CANN 版本就好了,其他就是一个运行匹配的问题,此次为什么能够花费这么久呢?完全是因为自己不理解 yolo26 模型的输出是什么意思,蒙起眼睛来打靶,完全打不中,后来参考了一个博主的,把需求弄清楚,就好了。
ujainu小16 天前
ascend
CANN cann-recipes-train:训练配方仓库的使用场景把一个 70B 参数的大模型从单卡搬上多机多卡分布式训练,需要调多少东西?通信拓扑、并行策略、梯度同步、显存分配……随便漏一项就是 OOM 或者通信死锁。昇腾CANN 的 cann-recipes-train 仓库就是来解决这个问题的——它把大模型在昇腾 NPU 上的分布式训练部署方案打包成「配方」,让开发者不用从零拼装,直接按方抓药跑训练。
ujainu16 天前
android·ascend
CANN pto-isa:虚拟指令集如何连接编译与执行个人主页:ujainu第一次看 CANN 五层架构图时,很多人会漏掉第 3 层编译层和底层硬件之间的那个"灰色地带"——编译完了,指令是怎么真正跑到昇腾 NPU 上的?
ujainu16 天前
ascend
CANN pto-isa:PTO 虚拟指令集里的 90+ Tile 操作怎么设计的个人主页:ujainu写昇腾 NPU 算子的人迟早会碰到一个问题:同一个 MatMul,用 Ascend C 写一遍、换个芯片还得再写一遍,底层指令完全不同,上层逻辑却一模一样。CANN 给出的答案是 pto-isa——一套 PTO 虚拟指令集,用统一的 Tile 级操作把"算什么"和"在哪算"彻底拆开。
ujainu17 天前
性能优化·ascend
CANN pto-isa:PTO 性能优化的指令调度与硬件特化个人主页:ujainu昇腾NPU 跑同一个 Transformer 模型,PTO 指令调度策略换一换,吞吐能差 3 倍。CANN 的 pto-isa 仓库定义了虚拟指令集规范,让同一套算子描述在不同硬件上映射成最优机器码。本文拆解这条从 PTO 指令到 NPU 执行的全链路。
ujainu17 天前
pytorch·深度学习·transformer·ascend
CANN pto-isa:Transformer 推理编译链路:从 PyTorch 到昇腾 NPU 执行个人主页:ujainu写完一个 PyTorch 的 Transformer 模型之后,你有没有想过这个问题:模型明明是 torch.nn.TransformerEncoder 加 torch.nn.Linear 拼出来的,昇腾 NPU 最后是怎么跑起来的?那些 nn.Linear 和 LayerNorm,编译器怎么知道应该生成什么样的硬件指令?
ujainu17 天前
ascend
CANN pto-isa:跨平台算子开发为什么需要虚拟指令集?个人主页:ujainu你写了一个矩阵乘算子,在昇腾 NPU 上跑得飞快。老板说:“能不能迁移到 AMD MI300X 上?”
ujainu17 天前
人工智能·ascend
CANN pto-isa:为什么 AI 编译需要一层虚拟指令集个人主页:ujainu刚接触昇腾 CANN 编译栈那会,我被一个问题卡了一周:Graph Compiler 生成的 IR,是怎么变成昇腾 NPU 能执行的机器码的?中间的算子实现,既不是直接写 Ascend C,也不是直接怼硬件指令——而是先落到一个叫 PTO 的东西上。
ujainu17 天前
ascend
CANN pto-isa:PTO到机器码的映射个人主页:在昇腾NPU上执行一条AI计算指令,到底经历了什么?从你写下的 matmul(A, B) 到芯片里的脉冲信号,中间横亘着编译器、运行时、驱动三层抽象。CANN pto-isa 仓库定义的PTO虚拟指令集,正是这三层抽象的"中转站"——它既不是你写的Python代码,也不是硬件执行的机器码,而是连接二者的桥梁。
嗝o゚17 天前
人工智能·gemm·ascend·cann算子
昇腾CANN ops-blas 仓:GEMM 算子的高性能实现矩阵乘法是深度学习里最核心的操作,没有之一。Transformer 的 Attention 要做 Q@K.T 和 P@V,FFN 要做两 个 MatMul。GEMM(General Matrix Multiply)就是专门优化矩阵乘的算子。ops-blas 仓是 CANN 的线性代数基础算子库,GEMM 是它的核心产品。这篇文章拆开看它怎么把 Cube 单元跑满的。
hh.h.17 天前
人工智能·ascend·cann·community
昇腾CANN community 仓:社区治理与贡献指南想给 CANN 开源社区做贡献,但不知道从哪入手。提 Issue、提 PR、审稿、发布 Release,这套流程有规矩。community 仓是昇腾CANN 的社区治理仓库,位于第一层——应用与加速库(边缘计算场景)。这个仓里放了所有社区治理的文档和模板。这篇文章拆开看怎么参与社区贡献。
慢慢向上的蜗牛1 个月前
linux·c++·人工智能·华为·驱动·底层开发·ascend
Atlas300I推理卡驱动适配Linux 6.12+内核目前华为官方的提供的所有AI卡驱动都未支持高版本Linux内核(6.8以上)博主花了大量时间去研究华为驱动源码,最终功夫不负有心人成功将Atlas300I卡以及Atlas300I Pro的驱动适配到了Linux-6.12.43内核版本,按道理来讲6.8以上的版本都可以进行驱动包安装,适配工作不易请大家点个关注,在此小编谢谢大家的支持了,编译好的驱动包我也会开源,有需要的小伙伴自行获取即可。
GPUStack1 个月前
大模型·ascend·模型推理·deepseek·gpustack
Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现随着 DeepSeek 正式发布 DeepSeek-V4 系列,大模型的工程边界再次被明显推高。该系列基于 MoE 架构,提供了 DeepSeek-V4-Flash 284B 和 DeepSeek-V4-Pro 1.6T 两种规格,同时在推理阶段仅激活数十亿参数,在性能与成本之间取得了新的平衡。配合百万级上下文窗口与全新的注意力优化机制,其在长文本理解、复杂推理以及智能体任务中的表现,已经开始逼近甚至挑战当前主流闭源模型。
x_lrong1 个月前
微调·部署·昇腾·ascend·llamafactory·qwen3·vllm-ascend
昇腾Ascend环境微调部署Qwen3(LlamaFactory+vLLM-Ascend)环境介绍:GitCode:实例:NPU basic · 1 * NPU 910B · 16v CPU · 64GB
handsomestWei2 个月前
昇腾·ascend·huawei·大模型部署·deepseek
华为昇腾DeepSeek模型部署适用于华为昇腾 310P3 服务器,基于 MindIE 服务化部署 DeepSeek-R1 系列模型,并通过 curl 调用 OpenAI 兼容接口进行对话验证。
TechWJ4 个月前
线性代数·矩阵·ascend·cann·catlass
catlass深度解析:Ascend平台的高性能矩阵运算模板库本文基于CANN开源社区的catlass仓库进行技术解读在高性能计算领域,矩阵乘法是最核心的基础运算。无论是深度学习中的全连接层、卷积层,还是科学计算中的线性代数求解,都大量依赖矩阵乘法。NVIDIA推出的CUTLASS(CUDA Templates for Linear Algebra Subroutines)以其模板化、高性能的设计著称,而CANN生态中的catlass正是面向AscendNPU的对标之作。
是Yu欸5 个月前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
禁默5 个月前
大模型·ascend·昇腾npu·atlas 800t
在昇腾 NPU上压测 Qwen1.5-MoE:AtomGit 云端部署全记录Qwen1.5-MoE-A2.7B 是一个架构非常有趣的“怪兽”:它拥有 14.3B 的庞大身躯(显存占用大),但在干活时只动用 2.7B 的脑细胞(计算速度快)。
是Yu欸6 个月前
c语言·开发语言·云原生·昇腾·ascend·cann·开放社区
从Ascend C算子开发视角看CANN的“软硬协同”版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。在AI算力飙升的今天,我们手里的NPU(神经网络处理器)越来越像一座精密的巨型工厂。以往,我们习惯用“黑盒”的方式去使用它——喂入数据,等待结果。但在大模型训练和极致推理优化的深水区,这种模式行不通了。