昇腾

知南x3 天前
学习·华为·昇腾·cann·dvpp
【华为昇腾DVPP/AIPP学习篇】(1)工程结构介绍最近博主准备了一个可以检测车辆的网络模型,准备部署到华为和香橙派联合出版的香橙派 Ai Pro上(Oriange Pi Ai Pro),此推理板使用的是Ascend3130B4的芯片。其中,博主学习CANN 的相关知识以满足模型优化的需求。
Token_w17 天前
gitcode·昇腾
昇腾 (Ascend) NPU 实战指南:在 GitCode Notebook 中玩转 CodeLlama随着大模型技术在软件开发领域的深入应用,越来越多的开发者开始尝试在本地或云端环境部署代码生成模型。华为昇腾(Ascend)计算产业随着 CANN 软件栈的不断成熟,已成为运行各类开源 LLM 的重要算力底座。
想你依然心痛18 天前
人工智能·鲲鹏·昇腾
鲲鹏+昇腾:开启 AI for Science 新范式——基于PINN的流体仿真加速实践命运偶尔会留意到你,发现你太过安逸,他觉得这样会毁了你,于是变会帮你改变。随着科学计算规模的指数级增长,传统 HPC 在处理高维、非线性物理方程时面临算力瓶颈。本文将基于“鲲鹏920 + 昇腾910”的异构计算平台,分享一个典型的 AI 与 HPC 融合案例:利用物理信息神经网络(PINN)加速流体动力学仿真。文章将详细拆解从环境部署、数据处理(鲲鹏侧)到模型训练与推理(昇腾侧)的全流程,并分享在国产硬件架构下的性能调优经验。
想你依然心痛18 天前
java·开发语言·arm开发·鲲鹏·昇腾
从x86到ARM的HPC之旅:鲲鹏开发工具链(编译器+数学库+MPI)上手与实战人生既不能延长,也没有赞美。既然这样,就觉得不如做些想都没想过的事,当做回忆也好。随着 ARM 架构在高性能计算(HPC)领域的崛起,鲲鹏 920 处理器凭借其多核高并发、高内存带宽的优势,正逐渐成为超算中心的新宠。然而,对于习惯了 x86 架构的开发者来说,如何最大限度地榨干鲲鹏的算力?本文将基于鲲鹏 BoostKit 全栈场景,深入剖析 HPC 开发的核心技术栈(毕昇编译器、KML 数学库、Hyper MPI),并通过一个经典的矩阵计算实战案例,手把手带你完成从代码编写、编译优化到性能可视化的全过程。
todoitbo18 天前
线性代数·矩阵·鲲鹏·昇腾
从零搭建鲲鹏 HPC 环境:从朴素矩阵乘法到高性能实现高性能计算(HPC)是科学研究和工程应用的重要支撑,而矩阵运算是 HPC 领域最基础也最重要的操作之一。本文将通过一个简单但实用的案例,矩阵乘法的并行优化,从零开始在鲲鹏平台上进行 HPC 开发实践。
是Dream呀18 天前
人工智能·鲲鹏·昇腾
从课程入坑到玩转昇腾:昇腾 310 系列平台下 Qwen2.5-7B 大模型训练实践今年五月份刷昇腾社区,看到首页推了个"MindSpeed LLM基于Qwen2.5-7B的开发实践"课程。我当时想法挺简单:反正是免费的,正好了解下国产AI芯片生态是什么样。
逸俊晨晖18 天前
目标检测·音视频·昇腾
昇腾算力卡310p编解码推理性能记录服务器型号:S800K2算力卡型号:Atlas 300I Duo测试规格:单310P3核心(Atlas 300I Duo 内置双310P3,为对比统一单卡测试)
逸俊晨晖18 天前
目标检测·昇腾
昇腾算力卡 AICPU 自定义算子实现画框在使用昇腾算力卡视频目标检测推理场景中,常规画框流程需将算力卡上的图像数据往返传输至CPU,占用大量PCIe带宽和CPU资源。针对昇腾算力卡,可通过AICPU自定义算子直接在算力卡上完成画框,避免数据往返传输,核心思路是将OpenCV画框API集成到AICPU算子中。
逸俊晨晖19 天前
人工智能·yolo·目标检测·昇腾
昇腾310P算力卡 10路1080p实时YOLOv8目标检测演示视频 https://www.bilibili.com/video/BV1rGidBEE8Q/拉流:通过FFmpeg解封装,拉取1080P RTSP流(使用MP4文件推流模拟实时场景)
逸俊晨晖19 天前
昇腾
昇腾NPU常用命令整理执行昇腾NPU命令时,建议统一加sudo,避免card id/chip id不一致的问题;若无sudo权限,需将用户加入HwHiAiUser组并重启。
是Yu欸25 天前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
是Yu欸1 个月前
昇腾·npu·deepseek·16卡
昇腾双机16卡部署DeepSeek-V3.2 (W8A8) 实战指南🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
AiChiMomo.1 个月前
昇腾·vllm·glm4.5·vllm-ascend
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化作者:昇腾实战派智谱GLM4.5、GLM4.6模型推理性能优化,本文提供量化权重导出方法,使用工具是msmodelslim。
小虚竹1 个月前
昇腾·cann
基于昇腾310的CANN推理开发--图片深度识别应用CANN简介:CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台体验链接为: https://gitcode.com/cann
是Yu欸1 个月前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
意疏1 个月前
昇腾
Llama-2-7b大模型在昇腾NPU上的部署与性能测评报告在人工智能技术快速发展的当下,大语言模型已成为推动产业创新的重要力量。Llama-2-7b作为业界公认的高效开源模型,如何在国产硬件平台实现高效部署,一直是技术社区关注的重点。本次测评基于GitCode提供的昇腾Notebook环境,对Llama-2-7b进行了全面的部署实践与性能测评。
Token_w1 个月前
昇腾
快速入门 vLLM-Ascend:开源仓结构、环境部署与基础配置在大模型推理领域,vLLM 凭借其创新的 PagedAttention 机制,成为了高吞吐量推理的事实标准。而 vLLM-Ascend 则是 vLLM 社区官方支持的昇腾(Ascend)硬件后端插件。它让华为昇腾 NPU 能够无缝运行 vLLM,享受极致的推理性能。
LucianaiB1 个月前
cpu·llama·昇腾
昇腾NPU实战:Llama-2-7B大模型的部署全流程与性能深度分析人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
倔强的石头1061 个月前
qwen·昇腾
昇腾NPU实战:国产之光Qwen2.5-7B-Instruct在AtomGit环境下的硬核部署与稳定性测评眼下这国产化大潮是越来越猛了,昇腾(Ascend)算力卡俨然成了咱们国内AI圈的中流砥柱。而Qwen2.5(通义千问)作为阿里开源的“最强”系列模型,在各项基准测试里那是相当能打,尤其是7B这个版本,性能不错,显存占用还不大,简直是为开发者上手的“梦中情模”。
小馒头学python1 个月前
开源·昇腾·cann
昇腾CANN开源仓生态体验与开源商业版差异深度解析本文基于昇腾AI实战经验,深度解读CANN开源仓生态,剖析其架构设计与核心能力,对比开源版与商业版差异,并结合真实项目分享参与体验。通过性能分析图表、实战代码示例与企业级案例,揭示CANN在模型训练/推理中的软硬协同优势,为开发者提供全链路指南。关键技术点:CANN分层架构、开源仓项目矩阵、版本差异量化对比、性能调优方法论。