昇腾

是Yu欸5 天前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
是Yu欸7 天前
昇腾·npu·deepseek·16卡
昇腾双机16卡部署DeepSeek-V3.2 (W8A8) 实战指南🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
AiChiMomo.7 天前
昇腾·vllm·glm4.5·vllm-ascend
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化作者:昇腾实战派智谱GLM4.5、GLM4.6模型推理性能优化,本文提供量化权重导出方法,使用工具是msmodelslim。
小虚竹7 天前
昇腾·cann
基于昇腾310的CANN推理开发--图片深度识别应用CANN简介:CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台体验链接为: https://gitcode.com/cann
是Yu欸7 天前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
意疏8 天前
昇腾
Llama-2-7b大模型在昇腾NPU上的部署与性能测评报告在人工智能技术快速发展的当下,大语言模型已成为推动产业创新的重要力量。Llama-2-7b作为业界公认的高效开源模型,如何在国产硬件平台实现高效部署,一直是技术社区关注的重点。本次测评基于GitCode提供的昇腾Notebook环境,对Llama-2-7b进行了全面的部署实践与性能测评。
Token_w10 天前
昇腾
快速入门 vLLM-Ascend:开源仓结构、环境部署与基础配置在大模型推理领域,vLLM 凭借其创新的 PagedAttention 机制,成为了高吞吐量推理的事实标准。而 vLLM-Ascend 则是 vLLM 社区官方支持的昇腾(Ascend)硬件后端插件。它让华为昇腾 NPU 能够无缝运行 vLLM,享受极致的推理性能。
LucianaiB10 天前
cpu·llama·昇腾
昇腾NPU实战:Llama-2-7B大模型的部署全流程与性能深度分析人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
倔强的石头10610 天前
qwen·昇腾
昇腾NPU实战:国产之光Qwen2.5-7B-Instruct在AtomGit环境下的硬核部署与稳定性测评眼下这国产化大潮是越来越猛了,昇腾(Ascend)算力卡俨然成了咱们国内AI圈的中流砥柱。而Qwen2.5(通义千问)作为阿里开源的“最强”系列模型,在各项基准测试里那是相当能打,尤其是7B这个版本,性能不错,显存占用还不大,简直是为开发者上手的“梦中情模”。
小馒头学python11 天前
开源·昇腾·cann
昇腾CANN开源仓生态体验与开源商业版差异深度解析本文基于昇腾AI实战经验,深度解读CANN开源仓生态,剖析其架构设计与核心能力,对比开源版与商业版差异,并结合真实项目分享参与体验。通过性能分析图表、实战代码示例与企业级案例,揭示CANN在模型训练/推理中的软硬协同优势,为开发者提供全链路指南。关键技术点:CANN分层架构、开源仓项目矩阵、版本差异量化对比、性能调优方法论。
EterNity_TiMe_11 天前
数据库·llama·昇腾·atlas 800t·实战部署
从 0 到 1:Llama 3-8B 在昇腾 Atlas 800T 上的推理调优与算力榨干指南前言:前段时间在 GitCode 中注意到 Notebook 功能可以直接进行大模型开发,于是抱着试试看效果的心态,决定尝试在云端环境部署一次 Meta-Llama-3-8B-Instruct 模型。整个过程比预期顺利得多,但也遇到了一些容易踩坑的问题,因此整理成了本文,希望作为一份从零开始就能照着做的完整部署教程。
禁默11 天前
昇腾·atlas 800
在昇腾 NPU上跑通 Mistral-7B:从环境避坑到 100% 算力释放针对 NPU 深度优化过的模型(MindSpore 版或 PyTorch 适配版),请优先看这里:Mistral-7B-Instruct-v0.2 是目前 7B 参数量级中最强的开源模型之一。本文详细记录了如何在 华为昇腾 (Ascend) NPU 环境下,从零开始配置环境、部署模型,并解决 accelerate 依赖报错、多线程资源崩溃、中文乱码以及“模型自问自答”等一系列实战问题,实现一个稳定、高性能的交互式 AI Agent,并简单测试相关性能。
云边有个稻草人13 天前
昇腾·apex编译与部署
昇腾环境下Apex编译与部署全指南:从环境配置到问题解决在AI模型训练领域,混合精度训练和分布式训练技术是提升效率的关键。NVIDIA Apex作为PyTorch生态中的重要工具库,为这些技术提供了便捷实现。而针对华为昇腾AI处理器,通过Apex Patch适配的apex for Ascend则让昇腾用户也能享受类似的效率提升。下面我将详细解析apex for Ascend的编译流程、环境配置要点及常见问题解决方案,为昇腾昇腾平台部署AI训练任务提供全面参考。
是Yu欸13 天前
c语言·开发语言·云原生·昇腾·ascend·cann·开放社区
从Ascend C算子开发视角看CANN的“软硬协同”版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。在AI算力飙升的今天,我们手里的NPU(神经网络处理器)越来越像一座精密的巨型工厂。以往,我们习惯用“黑盒”的方式去使用它——喂入数据,等待结果。但在大模型训练和极致推理优化的深水区,这种模式行不通了。
云边有个稻草人13 天前
昇腾·dancegrpo框架
DanceGRPO框架实战笔记:从原理到昇腾平台落地的全流程探索作为一名长期深耕视觉生成与强化学习领域的开发者,最近在昇腾平台上完成了DanceGRPO框架与FLUX模型的融合实践。这段经历让我对多模态生成强化学习有了更直观的认知——不仅要吃透理论原理,更要解决跨硬件迁移、性能调优等实际工程问题。下面就结合这次实战经历,从**<font style="background-color:rgba(255,246,122,0.8);">项目背景、核心原理、迁移实践到性能优化</font>**,一步步拆解整个过程中的关键细节与心得体会。
倔强的石头10614 天前
强化学习·昇腾
多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践——从环境搭建到端到端精度验证的完整实战指南近年来,随着文生图模型加速演进,“小而美”的后训练模型正成为行业趋势。Flux 系列模型凭借高效生成质量受到广泛关注,而 DanceGRPO 作为专为生成式 AI 设计的 RL(强化学习)框架,通过引入高质量奖励模型与 GRPO 策略,在 Flux 等模型上可取得显著的生成效果提升。
LZL_SQ20 天前
人工智能·昇腾·cann·ascend c
昇腾NPU架构设计 从抽象硬件模型到物理实现在硅基芯片上为神经网络计算重构冯·诺依曼体系,探寻专用加速器的设计哲学与工程实现昇腾NPU(Neural Processing Unit)作为华为自研的AI加速器,其架构设计体现了"软件定义硬件"与"硬件加速软件"的双向协同哲学。本文基于我十三年的芯片设计经验,深度解构昇腾达芬奇架构从抽象硬件模型到物理实现的完整技术栈。我们将揭示AI Core内部的Cube计算单元如何通过脉动阵列实现矩阵计算的硬件化,多级存储体系如何打破冯·诺依曼瓶颈,以及指令调度系统如何实现计算与搬运的完美重叠。文章包含一个完整的As
七夜zippoe20 天前
人工智能·昇腾·cann·ascend c·l1 buffer
NPU存储体系 数据在芯片内的旅程与分层优化策略打破冯·诺依曼瓶颈的七层存储迷宫解密:从HBM到寄存器的数据生命周期管理艺术目录🎯 摘要🏗️ 第一章 存储墙挑战 从冯·诺依曼瓶颈到分层存储革命
Felven21 天前
linux·python·模型训练·昇腾·310p
华为昇腾310P模型转换失败问题解决加固服务器使用华为昇腾310P进行推理,在进行模型转换时,提示转换失败,如下:出现上面问题是系统下装了多个Python版本,同时缺少依赖包。
一见已难忘23 天前
人工智能·开源·llama·gitcode·昇腾
昇腾加持下的Llama 3.2:开源大模型推理性能1B英文原版与3B中文微调模型实测对比本篇文章全面测评了 Llama 3.2 系列大模型 在 昇腾(Ascend) 上的推理性能,并展示了在 GitCode 云端平台 上的快速部署与应用实践。文章首先介绍了 Llama 3.2 的英文原版与中文微调版本的加载与运行方法,随后对推理速度、稳定性和算力利用率进行了详细对比,重点展示了 1B 与 3B 模型在不同任务场景下的性能差异。通过实测结果可以看出,昇腾 能够充分发挥硬件加速优势,实现快速、稳定的模型推理,而 GitCode 平台提供的即开即用环境则大幅降低了部署难度,提升了开发效率。文章最后