昇腾

昇腾CANN3 天前
人工智能·开源·昇腾·cann
从一张查找表到 4GB/s:HiFloat8 Cast 算子的工程化之路HiFloat8 Cast 算子在 Atlas A2/A3 昇腾 NPU 上为 PyTorch 实现 FP16/BF16 ↔ HiFloat8 双向转换,通过半空间 LUT、动态 tiling 和 DataCopy 分支优化,在大数据量下单方向吞吐稳定在 4 GB/s 量级——接近当前软件查表实现的吞吐上限。 Ascend 950系列产品 已具备原生 HiFloat8 硬件能力,本算子主要面向尚无该硬件加速的 A2/A3 平台。
嗝o゚11 天前
算法·昇腾·cann·ge
CANN GE 算子融合——融合算法与调度策略GE 的算子融合是性能提升的核心手段。哪些算子能融合、融合的边界在哪里、调度顺序怎么定,这些都影响最终的执行效率。
hh.h.11 天前
昇腾·cann·hcomm
CANN hcomm 通信库——多机训练的集合通信多机多卡训练时,节点间通信往往成为性能瓶颈。hcomm 是昇腾 CANN 软件栈中负责集合通信的核心库,作为 HCCL 的底层通信原语,它直接管理 NPU 之间的数据传输与同步。本文深入剖析 hcomm 的工作原理、通信架构、原语实现与配置调优方法,帮助开发者掌握多机训练通信层的底层逻辑。
hh.h.11 天前
昇腾·runtime·cann
CANN runtime 内存池——高效显存管理策略runtime 的内存池是昇腾 NPU 显存管理的核心。分配策略、碎片处理、生命周期管理,这些细节决定了多模型推理时的显存利用率。这篇文章把 runtime 内存池的设计思路掰开讲,帮助你在模型部署时把显存吃满、用透。
嗝o゚11 天前
昇腾·cann·ops-fft
CANN ops-fft FFT 算子——频域卷积加速原理大卷积核的卷积操作如果在空域逐点相乘再求和,其计算复杂度为 O(H×W×K×H×K),随着卷积核尺寸增大,计算量呈平方级增长。当卷积核大于 7×7 时,空域卷积的计算开销已经大到难以忽视。FFT(快速傅里叶变换)提供了一条绕过这条困境的路径:将时域卷积转换为频域乘法,从而把复杂度从 O(N²) 降至 O(N log N)。ops-fft 仓正是昇腾 NPU 上 FFT 算子的完整实现,本文剖析它的原理与用法。
hh.h.11 天前
架构·昇腾·cann·autofusion
CANN graph-autofusion 框架——算子自动融合原理与实战手动融合算子是一件枯燥且容易出错的事:你要逐条分析算子间的数据依赖、确认 shape 一致性、规划寄存器分配,最后还要调试融合 kernel 的正确性。在昇腾 CANN 生态中,graph-autofusion 框架把这件事自动化了——它能自动识别计算图中的可融合算子模式,并生成对应的融合 kernel,让你专注于模型结构本身。
hh.h.12 天前
vector·算子·昇腾·cann
昇腾CANN atvc 仓:Vector 算子模板库——Vector 单元的算子开发昇腾 NPU 有两个计算核心:Cube 单元做矩阵乘,Vector 单元做逐元素运算。这两者的分工不是偶然的——矩阵乘是计算密集型,要高密度算力;逐元素运算是内存密集型,要高带宽搬运。大多数深度学习模型里,两类算子缺一不可,区别在于用哪个单元来跑性价比更高。
嗝o゚12 天前
昇腾·cann·hccl
昇腾CANN HCCL 多机训练:网络拓扑和通信优化两机八卡跑 LLaMA 训练,AllReduce 的带宽利用率只有 60%,模型训练速度上不去。多机训练的瓶颈通常不在 GPU/NPU 算力,而在网络通信。HCCL 是昇腾 NPU 的集合通信库,这篇文章实测不同网络拓扑下的通信效率,帮你把多机训练的带宽跑满。
hh.h.13 天前
架构·昇腾·driver·cann
昇腾 CANN driver 层架构:软硬件接口的深度解析昇腾 NPU 的驱动层是硬件和软件之间的桥梁。你写的每一行 PyTorch 代码,最终都要通过驱动翻译成硬件指令。这篇文章从架构层面讲清楚 CANN driver 的设计、核心组件和故障排查方法。
蛐蛐蛐16 天前
大模型·昇腾·vllm
昇腾910B4、openEuler上使用vLLM-Ascend部署Qwen3.6模型的流程这篇博客承接之前这篇:https://blog.csdn.net/qysh123/article/details/160962233
昇腾CANN21 天前
人工智能·昇腾·cann
芯模赋能,智启未来:杭电CANN启航营圆满收官,解锁AI实践5月17日晚,随着最后一行代码在昇腾NPU算力平台上成功运行,为期两天(5月16日-17日)的杭电CANN启航营在热烈的交流氛围中圆满落下帷幕。本次活动由杭州电子科技大学计算机学院、CANN开源社区与SwanLab开源社区联合打造,旨在将“产业前沿”第一时间引入课堂。同学们在下沙校区计算机学院1教115教室,共同经历了一场从底层算子开发到大语言模型微调的“硬核”技术之旅,实现了从理论学习到工程实践的深度跨越。
昇腾CANN1 个月前
人工智能·昇腾·cann
5月14号直播丨多模态生成技术优化实践第二期--并行和Cache篇
蛐蛐蛐1 个月前
人工智能·python·昇腾
昇腾910B4上安装新版本CANN的正确流程准备用vLLM-Ascend部署一下Qwen 3.6,其实也有其他朋友介绍了基本的流程:https://blog.csdn.net/weixin_45724433/article/details/160470026
昇腾CANN1 个月前
人工智能·昇腾·cann
5月12日直播丨Ascend 950 HiF8模型量化技术的训推实践随着大模型训推规模持续增长,8-bit 数据格式已成为提升计算效率、降低显存占用和优化部署成本的重要方向。HiFloat8(HiF8)凭借大动态范围和灵活的精度表达,为大模型在低比特场景下兼顾精度与性能提供了新的路径。
昇腾CANN1 个月前
人工智能·昇腾·cann·deepseek
5月11日直播丨CANN算子挑战赛(江山赛区)赛题和评分规则解读
昇腾CANN1 个月前
人工智能·昇腾·cann
CANNBot + DeepSeek-V4 实操:30 分钟生成可达理论性能极限的 MXFP8 Matmul + Add 融合算子DeepSeek-V4 在通用编程领域表现惊艳,但当场景转向 NPU Ascend C 融合算子开发——这类高度依赖硬件架构知识和性能调优经验的垂直领域时,它的表现又会如何?本文基于 CANNBot + DeepSeek-V4,以大模型场景中广泛采用的 MXFP8 MatMul + Add 场景为例,端到端自动生成了融合算子工程生成并完成了精度、性能测试。核心成果如下:
嵌入式小企鹅1 个月前
学习·开源·ai编程·risc-v·昇腾·deepseek v4
国产算力突破、RISC-V车规生态成型、AI编程工具免费化浪潮目录🔮 技术观察🧠 一、国产算力:DeepSeek V4全栈适配国产芯片🖥️ 二、RISC-V生态:车规芯片与安全软件双突破
大数据在线1 个月前
cuda·昇腾·cann·英伟达·deepseek
AI计算新生态:旧地图找不到新大陆沿着旧地图,永远找不到新大陆。当英伟达GPU+CUDA花费数年构筑起足够高的AI计算生态壁垒时,试图通过“抄作业”的方式固然短时间之内可获得一定的份额,但这种“亦步亦趋”的捷径,本质上是基于他人的生态,最终无法在市场中实现真正的突围。
昇腾CANN1 个月前
开发语言·javascript·性能优化·昇腾·cann
TileLang-Ascend 算子性能优化方法与实操在 AI 大模型时代,算子性能优化是提升整体训练和推理效率的关键。TileLang 是一门面向高性能算子开发的领域特定语言(DSL),采用简洁直观的编程范式,让开发者能够以接近数学表达的方式描述计算逻辑。相比传统的手写算子开发,TileLang 大幅降低了开发门槛,使开发者能够更高效地完成高性能算子的开发与调优。
嵌入式小企鹅1 个月前
人工智能·学习·开源·嵌入式·小米·算力·昇腾
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型目录🔮 今日技术观察🧠 一、CPU供需趋紧 × 价格持续上行🖥️ 二、RISC-V生态 × 高性能MCU加速落地