pytorch

嗝o゚5 小时前
pytorch·python·深度学习·cann·ge-pass
昇腾CANN ge 仓的图优化 Pass:哪些 Pass 真正影响推理性能你训练好一个模型,导出 ONNX,转成 CANN 的 OM 模型。推理时发现:延迟 89ms,吞吐只有 1200 samples/s。
松☆7 小时前
人工智能·pytorch·python
昇腾NPU上的张量操作库,和PyTorch的张量操作有啥不一样?你有没有想过一个问题:PyTorch已经有了一套完整的张量操作(torch.tensor、torch.reshape、torch.cat等),昇腾CANN为啥还要自己搞一套ops-tensor?是重复造轮子,还是真的有必要?
weixin_550083158 小时前
人工智能·pytorch·cnn
PyTorch 实战:从零搭建手写数字识别系统(CNN 卷积神经网络)<div align="center">PyTorch 实战:从零搭建手写数字识别系统(CNN 卷积神经网络)
5201-9 小时前
pytorch·python·矩阵
Cube MatMul:为什么矩阵乘法选了 Cube 而不是 Vector本文基于昇腾CANN和昇腾NPU,围绕 Cube MatMul 矩阵乘法技术展开。想象你在一个巨大的停车场里搬箱子。方案 A:一次搬一个箱子,走 100 趟——这是 Vector 的做法。方案 B:用叉车一次叉起 16×16 个箱子,一趟搞定——这是 Cube 的做法。
MediaTea11 小时前
人工智能·pytorch·python·深度学习·transformer
DL:Transformer 的基本原理与 PyTorch 实现Transformer 是深度学习中最重要的模型结构之一。它最初用于自然语言处理任务,后来逐渐扩展到图像、语音、多模态、代码生成、推荐系统和强化学习等领域,成为现代大模型的核心基础结构。
心中有国也有家11 小时前
人工智能·pytorch·python·学习·numpy
MindSpore 适配 NPU 的全链路解析——从算子注册到端到端性能调优MindSpore 怎么在 NPU 上跑起来?不是简单的「编译+运行」,而是从前端算子注册、后端算子选择、内存分配、到通信库对接的全链路适配。这篇文章把这整套流程拆开讲清楚。
小糖学代码14 小时前
人工智能·pytorch·深度学习·自然语言处理
LLM系列:1.python入门:19.Requests(网络库)Requests是Python生态中最流行、也是最基础的第三方HTTP客户端库。它的核心理念是“HTTP for Humans”(让HTTP服务于人类),相比Python内置的urllib库,Requests的API设计更加直观、简洁,能够极其高效地处理各种HTTP请求与响应。
心中有国也有家14 小时前
人工智能·pytorch·python
PyTorch 适配 NPU:从 torch_npu 到 CANN 算子的全链路技术解析PyTorch 官方不支持 NPU,但华为提供了 torch_npu 扩展包,让 PyTorch 模型可以在 NPU 上训练和推理。这篇文章讲清楚 torch_npu 是怎么把 PyTorch 的算子调用转发到 CANN 的,以及用户怎么用它做性能调优。
盼小辉丶14 小时前
人工智能·pytorch·python·强化学习
PyTorch强化学习实战(10)——强化学习高级组件我们已经学习了如何实现深度Q网络 (Deep Q-Network, DQN) 模型,证明了非线性近似器完全可用于强化学习,这一概念验证极大地推动了深度Q学习乃至整个深度强化学习领域的研究热潮。在本节中,我们将重点探讨如何定义强化学习高级组件,使用更高级的模块构建代码,并聚焦于所实现方法的核心细节,避免反复实现相同的逻辑,避免重复造轮子的低效劳动。
MediaTea14 小时前
人工智能·pytorch·深度学习·神经网络·生成对抗网络
DL:生成对抗网络的基本原理与 PyTorch 实现生成对抗网络(Generative Adversarial Network,GAN)是深度学习中非常重要的一类生成模型。与分类模型、回归模型不同,GAN 的目标不是根据输入判断类别,也不是预测一个连续数值,而是学习真实数据的分布,并生成看起来像真实数据的新样本。
MediaTea15 小时前
人工智能·pytorch·python·深度学习·神经网络
PyTorch:神经网络模块PyTorch 的 torch.nn 模块,是构建神经网络最核心的模块。它提供了模型基类、常用网络层、激活函数、损失函数、容器结构、参数管理和训练状态控制等能力。
灰灰勇闯IT1 天前
pytorch·python·深度学习
DeepSeek-R1 在 CANN 上的推理部署本文基于昇腾CANN和昇腾NPU,围绕 cann-recipes-infer 仓库的相关技术展开。DeepSeek-R1 是个 MoE 模型——671B 总参数但每次推理只激活 37B。这对推理系统是个结构性的挑战:MoE 的路由选择和 Expert 调度依赖通信,CANN 的集合通信库 HCCL 和单边通信库 hixl 构成了 MoE 推理的通信底座。
努力学习_小白1 天前
pytorch·深度学习·inception v1
Inception V1——学习记录2014年,Google团队在ImageNet大规模视觉识别挑战赛(ILSVRC 2014)中提出了一种代号为“Inception”的深度卷积神经网络架构,即GoogLeNet(InceptionV1),一举斩获分类与检测双料冠军。该架构以500万参数量达到了top-5错误率6.67%的优异性能,参数量仅为AlexNet(6000万)的1/12,计算量仅15亿次浮点运算,却拥有22层的深度,远超过AlexNet的8层。
5201-1 天前
数据库·pytorch·python
向量数据库在 NPU 上的加速本文基于昇腾CANN和昇腾NPU,围绕 cann-learning-hub 仓库的相关技术展开。向量数据库是 RAG 管线的核心——建库、检索、更新。传统向量库跑 CPU 上,Embedding 转完向量得从 NPU 拷到 CPU 再检索。CANN 上做 NPU-native 向量库可以把检索压在显存里,省掉 PCIe 搬运。
AI街潜水的八角1 天前
人工智能·pytorch·深度学习
PyTorch框架——基于深度学习PmrNet神经网络AI去噪图像增强系统(含训练代码、数据集和GUI交互界面)PmrNet是一种基于U-Net架构改进的深度学习网络,来自于论文《Practical Deep Raw Image Denoising on Mobile Devices》,这个网络聚焦于在移动设备上实现高效的原始图像(RAW)去噪(本文用来做去噪),解决了传统方法在计算资源受限的移动端难以部署的问题。
解局易否结局1 天前
人工智能·pytorch·深度学习
GE 和 Runtime:不是上下游,是协同决策你以为 GE 做完融合决策,交给 Runtime 执行就行了?其实它们是一个协同系统——GE 决定"融什么",Runtime 决定"怎么跑",但 GE 的融合决策必须考虑 Runtime 的调度约束,Runtime 的调度策略也必须参考 GE 的融合结果。
AI街潜水的八角1 天前
人工智能·pytorch·深度学习
PyTorch框架——基于深度学习PmrNet神经网络AI去噪图像增强系统(含训练代码、创新对比、数据集和GUI交互界面)整个原理的介绍可见,未改进创新的文章:PyTorch框架——基于深度学习PmrNet神经网络AI去噪图像增强系统(含训练代码、数据集和GUI交互界面)https://blog.csdn.net/u013289254/article/details/161334559?spm=1001.2014.3001.5502
hh.h.1 天前
人工智能·pytorch·python·cann
PyTorch模型适配昇腾NPU:从零开始的端到端流程把PyTorch训练的模型跑到昇腾NPU上做推理,看似简单,实际坑很多。环境要搭、权重要转、推理要调、性能要优。这篇文章从零开始,手把手带你走完整个流程。全程实战,不绕弯子。
MediaTea1 天前
人工智能·pytorch·rnn·深度学习·神经网络
DL:循环神经网络的基本原理与 PyTorch 实现循环神经网络(Recurrent Neural Network,RNN)是深度学习中专门用于处理序列数据的一类神经网络。与前馈神经网络不同,RNN 不只是把输入从前向后逐层传递,而是在处理序列时引入“隐藏状态”,让模型能够把前面时间步的信息传递到后面时间步。
L、2181 天前
网络·人工智能·pytorch·python·安全
CANN异构计算实践:CPU+NPU协同工作的最佳模式前面44篇都在讲NPU怎么算,但其实很多场景下CPU和NPU需要协同工作——不是简单的"CPU喂数据、NPU算",而是更复杂的流水线分工。比如推荐系统里,特征交叉在CPU上做、深度部分在NPU上做;NLP推理里,Tokenization在CPU上做、Attention在NPU上做。