昇腾

wuli_滔滔10 小时前
算子·昇腾·atlas·ascend c·cann]
昇腾Atlas加速卡与Ascend C:从硬件基石到编程哲学的深度解析与实战目录摘要1. 引子:我们为何需要“另一种”AI芯片和编程模型?2. 昇腾Atlas加速卡硬件架构:达芬奇核心的匠心独运
东南门吹雪1 天前
人工智能·cache·昇腾·npu·一致性协议
AI芯片-LLM算子-CPU-Cache问:昇腾答:已深度思考(用时5秒)好的,用户突然只发了“昇腾”两个字,我得先确定他到底想知道什么。首先,得看看对话历史有没有上下文,但这里历史是空的,说明可能是第一次询问。
七夜zippoe1 天前
昇腾·cann·ascend c·tiling·addcustom
通关秘籍第一式:十分钟彻底读懂Ascend C算子开发中级认证目录摘要1. 认证价值:为什么中级认证是能力分水岭?1.1 从功能正确到性能达标1.2 从单核到多核协同
熊文豪5 天前
性能优化·昇腾·cann
深度解析毕昇编译器:昇腾CANN生态的异构计算与性能优化引擎BiSheng Compiler毕昇编译器作为CANN(Compute Architecture for Neural Networks)生态的核心组件,BiSheng Compiler毕昇编译器以其卓越的性能优化能力,为昇腾AI处理器提供了强大的软件支撑。本文将深入探讨BiSheng Compiler的核心价值、关键特性及其在简化AI开发、提升计算效率方面的显著优势。
七夜zippoe17 天前
昇腾·cann·算子开发·ascend c·kernel 算子
Ascend C 算子开发模式全解析:从 Kernel 到工程化目录摘要一、背景介绍:为什么需要特定的算子开发模式?二、昇腾AI Core基础架构浅析三、原理详解:两种开发模式的深度对比
七夜zippoe18 天前
昇腾·cann·核函数·ascend c·向量加法
Ascend C 编程模型揭秘:深入理解核函数、任务并行与流水线优化目录摘要一、背景介绍:从串行思维到并行范式的范式转移二、核函数(Kernel Function):并行计算的执行单元
●VON21 天前
架构·昇腾·昇腾npu·gpt-oss-20b·昇腾训练营
深入昇腾NPU:从架构到算子开发的全栈探索在当今人工智能高速发展的浪潮中,算力已成为推动AI创新的核心驱动力。作为国产AI芯片的代表,华为昇腾NPU(Neural Processing Unit)凭借其创新的达芬奇架构和强大的异构计算能力,正在重塑AI计算的格局。本文将深入探讨昇腾NPU的技术特性,并重点介绍基于CANN(Compute Architecture for Neural Networks)的算子开发实践。
摘星编程21 天前
人工智能·华为·gitcode·昇腾
昇腾NPU性能调优实战:INT8+批处理优化Mistral-7B全记录目录昇腾NPU性能调优实战:INT8+批处理优化Mistral-7B全记录摘要昇腾NPU性能调用概览架构特性与优化基础
●VON23 天前
人工智能·昇腾·昇腾npu·昇腾训练营
CANN卷积算子深度优化:以ResNet推理为例2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。
小草cys1 个月前
服务器·人工智能·华为·昇腾·910b
华为910B服务器(搭载昇腾Ascend 910B AI 芯片的AI服务器查看服务器终端信息在华为 910B 服务器(通常指搭载 昇腾 Ascend 910B AI 芯片 的 AI 服务器)上,若你想查看服务器终端信息(如设备状态、NPU 信息、驱动版本、算力使用情况等),可通过以下命令和工具进行操作。这些操作通常在 Linux 系统终端(如 Ubuntu/CentOS) 中执行。
wei_shuo1 个月前
大模型·llama·昇腾
Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考本文为适配大模型国产化部署需求,以 Llama-2-7b 为对象,在 GitCode Notebook 昇腾 NPU(910B)环境中完成从依赖安装到模型部署的全流程落地,并通过六大维度测评验证:单请求吞吐量稳定 15.6-17.6 tokens / 秒,batch=4 时总吞吐量达 63.33 tokens / 秒,16GB 显存即可支撑高并发,最终提供可复现的部署方案、性能基准数据及硬件选型建议,助力高效落地国产算力大模型应用。
熊文豪1 个月前
昇腾·1024程序员节·昇腾npu·gpt-oss-20b
昇腾NPU部署GPT-OSS-20B混合专家模型:从环境配置到性能优化的完整实践指南本文详细记录了使用GitCode平台的免费昇腾Notebook实例,完成GPT-OSS-20B模型(一个21B参数的混合专家模型,激活参数3.6B)的环境配置、模型部署、性能测试与优化的全过程。通过编写自定义转换脚本将PyTorch模型转换为MindSpore格式,并在昇腾NPU上运行基准测试脚本,进行5次重复测试以获取可靠的数据统计。最终,我们评估了模型在不同场景下的推理速度和吞吐量,并提供了优化建议。整个过程旨在帮助开发者在昇腾NPU上高效部署大型MoE模型。
倔强的石头1061 个月前
大模型·llama·昇腾
昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。
羊城迷鹿1 个月前
昇腾·npu·vllm
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录本文记录了华为NPU服务器驱动失效问题的完整排查与解决过程。服务器重启后npu-smi info命令失效,经诊断发现是内核自动升级导致当前运行的5.15.0-153版本缺少Ascend驱动模块。通过对比/lib/modules目录下各内核版本的驱动文件,确认5.15.0-144-generic版本包含完整的24个驱动模块。随后修改GRUB配置回退至该内核版本,并通过锁定内核包和禁用自动升级机制防止问题再次发生。在尝试部署vLLM框架时,遇到了NumPy版本冲突、缺少依赖模块、C++编译环境配置、CANN