ascend

如何搭建TRAE IDE 连接到容器开发环境参考文档：如何使用 Trae 连接到 Devbox 启动的 Dockertrae链接到服务器的docker环境

Yolo26 模型转换 onnx 再转换 om 模型到 Ascend310B4 运行经过原来以为说什么 yolo26 转换成 om 模型不能在昇腾上面运行，实际呢就是把训练好的模型转换好就行了，这里只要昇腾芯片对 onnx 模型版本的要求（一般 opset = 11 较为稳定），以及昇腾芯片能够适配的 CANN 版本就好了，其他就是一个运行匹配的问题，此次为什么能够花费这么久呢？完全是因为自己不理解 yolo26 模型的输出是什么意思，蒙起眼睛来打靶，完全打不中，后来参考了一个博主的，把需求弄清楚，就好了。

CANN cann-recipes-train：训练配方仓库的使用场景把一个 70B 参数的大模型从单卡搬上多机多卡分布式训练，需要调多少东西？通信拓扑、并行策略、梯度同步、显存分配……随便漏一项就是 OOM 或者通信死锁。昇腾CANN 的 cann-recipes-train 仓库就是来解决这个问题的——它把大模型在昇腾 NPU 上的分布式训练部署方案打包成「配方」，让开发者不用从零拼装，直接按方抓药跑训练。

CANN pto-isa：虚拟指令集如何连接编译与执行个人主页：ujainu第一次看 CANN 五层架构图时，很多人会漏掉第 3 层编译层和底层硬件之间的那个"灰色地带"——编译完了，指令是怎么真正跑到昇腾 NPU 上的？

CANN pto-isa：PTO 虚拟指令集里的 90+ Tile 操作怎么设计的个人主页：ujainu写昇腾 NPU 算子的人迟早会碰到一个问题：同一个 MatMul，用 Ascend C 写一遍、换个芯片还得再写一遍，底层指令完全不同，上层逻辑却一模一样。CANN 给出的答案是 pto-isa——一套 PTO 虚拟指令集，用统一的 Tile 级操作把"算什么"和"在哪算"彻底拆开。

CANN pto-isa：PTO 性能优化的指令调度与硬件特化个人主页：ujainu昇腾NPU 跑同一个 Transformer 模型，PTO 指令调度策略换一换，吞吐能差 3 倍。CANN 的 pto-isa 仓库定义了虚拟指令集规范，让同一套算子描述在不同硬件上映射成最优机器码。本文拆解这条从 PTO 指令到 NPU 执行的全链路。

CANN pto-isa：Transformer 推理编译链路：从 PyTorch 到昇腾 NPU 执行个人主页：ujainu写完一个 PyTorch 的 Transformer 模型之后，你有没有想过这个问题：模型明明是 torch.nn.TransformerEncoder 加 torch.nn.Linear 拼出来的，昇腾 NPU 最后是怎么跑起来的？那些 nn.Linear 和 LayerNorm，编译器怎么知道应该生成什么样的硬件指令？

CANN pto-isa：跨平台算子开发为什么需要虚拟指令集？个人主页：ujainu你写了一个矩阵乘算子，在昇腾 NPU 上跑得飞快。老板说：“能不能迁移到 AMD MI300X 上？”

CANN pto-isa：为什么 AI 编译需要一层虚拟指令集个人主页：ujainu刚接触昇腾 CANN 编译栈那会，我被一个问题卡了一周：Graph Compiler 生成的 IR，是怎么变成昇腾 NPU 能执行的机器码的？中间的算子实现，既不是直接写 Ascend C，也不是直接怼硬件指令——而是先落到一个叫 PTO 的东西上。

CANN pto-isa：PTO到机器码的映射个人主页：在昇腾NPU上执行一条AI计算指令，到底经历了什么？从你写下的 matmul(A, B) 到芯片里的脉冲信号，中间横亘着编译器、运行时、驱动三层抽象。CANN pto-isa 仓库定义的PTO虚拟指令集，正是这三层抽象的"中转站"——它既不是你写的Python代码，也不是硬件执行的机器码，而是连接二者的桥梁。

昇腾CANN ops-blas 仓：GEMM 算子的高性能实现矩阵乘法是深度学习里最核心的操作，没有之一。Transformer 的 Attention 要做 Q@K.T 和 P@V，FFN 要做两个 MatMul。GEMM（General Matrix Multiply）就是专门优化矩阵乘的算子。ops-blas 仓是 CANN 的线性代数基础算子库，GEMM 是它的核心产品。这篇文章拆开看它怎么把 Cube 单元跑满的。

昇腾CANN community 仓：社区治理与贡献指南想给 CANN 开源社区做贡献，但不知道从哪入手。提 Issue、提 PR、审稿、发布 Release，这套流程有规矩。community 仓是昇腾CANN 的社区治理仓库，位于第一层——应用与加速库（边缘计算场景）。这个仓里放了所有社区治理的文档和模板。这篇文章拆开看怎么参与社区贡献。

慢慢向上的蜗牛

Atlas300I推理卡驱动适配Linux 6.12+内核目前华为官方的提供的所有AI卡驱动都未支持高版本Linux内核（6.8以上）博主花了大量时间去研究华为驱动源码，最终功夫不负有心人成功将Atlas300I卡以及Atlas300I Pro的驱动适配到了Linux-6.12.43内核版本，按道理来讲6.8以上的版本都可以进行驱动包安装，适配工作不易请大家点个关注，在此小编谢谢大家的支持了，编译好的驱动包我也会开源，有需要的小伙伴自行获取即可。

Day 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现随着 DeepSeek 正式发布 DeepSeek-V4 系列，大模型的工程边界再次被明显推高。该系列基于 MoE 架构，提供了 DeepSeek-V4-Flash 284B 和 DeepSeek-V4-Pro 1.6T 两种规格，同时在推理阶段仅激活数十亿参数，在性能与成本之间取得了新的平衡。配合百万级上下文窗口与全新的注意力优化机制，其在长文本理解、复杂推理以及智能体任务中的表现，已经开始逼近甚至挑战当前主流闭源模型。

昇腾Ascend环境微调部署Qwen3（LlamaFactory+vLLM-Ascend）环境介绍：GitCode：实例：NPU basic · 1 * NPU 910B · 16v CPU · 64GB

华为昇腾DeepSeek模型部署适用于华为昇腾 310P3 服务器，基于 MindIE 服务化部署 DeepSeek-R1 系列模型，并通过 curl 调用 OpenAI 兼容接口进行对话验证。

catlass深度解析：Ascend平台的高性能矩阵运算模板库本文基于CANN开源社区的catlass仓库进行技术解读在高性能计算领域，矩阵乘法是最核心的基础运算。无论是深度学习中的全连接层、卷积层，还是科学计算中的线性代数求解，都大量依赖矩阵乘法。NVIDIA推出的CUTLASS（CUDA Templates for Linear Algebra Subroutines）以其模板化、高性能的设计著称，而CANN生态中的catlass正是面向AscendNPU的对标之作。

在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀！我是是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

在昇腾 NPU上压测 Qwen1.5-MoE：AtomGit 云端部署全记录Qwen1.5-MoE-A2.7B 是一个架构非常有趣的“怪兽”：它拥有 14.3B 的庞大身躯（显存占用大），但在干活时只动用 2.7B 的脑细胞（计算速度快）。