pytorch

CoovallyAIHub5 小时前
pytorch·深度学习·llm
开源的消逝与新生:从 TensorFlow 的落幕到开源生态的蜕变还记得那个曾经风光无两的 TensorFlow 吗?曾经,它是深度学习的代名词;而今天,它却被 PyTorch 全面取代。
l12345sy2 天前
人工智能·pytorch·深度学习·广播机制
Day24_【深度学习—广播机制】广播机制用于判断两个不同形状的张量是否可以进行逐元素运算(如 +, -, * 等)。它的规则是从最后一个维度开始,从右往左逐一比较两个张量的维度大小。
蒋星熠3 天前
开发语言·人工智能·pytorch·python·深度学习·机器学习·ai
如何在Anaconda中配置你的CUDA & Pytorch & cuNN环境(2025最新教程)目录一、简介二、下载CUDA三、下载Pytorch-GPU版本四、下载CUDNN五、总结六、测试代码啥是Anaconda?啥是CUDA?啥是CUDNN?它们和Pytorch、GPU之间有啥关系?
weiwei228443 天前
pytorch·tensor
Torch核心数据结构Tensor(张量)tensor是一个多维数组,类似于NumPy中的ndarray,但tensor可以在GPU上进行高效计算,这是它与ndarray的重要区别之一。它可以表示标量(0维张量)、向量(1维张量)、矩阵(2维张量)以及更高维度的张量,广泛应用于表示模型的输入、输出、参数等。下图比较形象的给出了各种张良:
wL魔法师4 天前
人工智能·pytorch·深度学习·llm
【LLM】大模型训练中的稳定性问题本文档详细介绍了在项目中解决训练稳定性问题的方法、原理分析以及实际应用。涵盖了梯度裁剪、损失函数优化、数值稳定化处理和学习率调度等关键技术。
技术小黑4 天前
pytorch·深度学习·transformer
Transformer系列 | Pytorch复现Transformer在之前的博客中我们学习了Seq2Seq(深度学习系列 | Seq2Seq端到端翻译模型),知晓了Attention为RNN带来的优点。那么有没有一种神经网络结构直接基于attention构造,并且不再依赖RNN、LSTM或者CNN网络结构了呢?答案便是:Transformer。Seq2Seq和Transformer都是用于处理序列数据的深度学习模型,但它们是两种不同的架构。
DogDaoDao4 天前
人工智能·pytorch·深度学习·神经网络·大模型·剪枝·网络稀疏
神经网络稀疏化设计构架方法和原理深度解析当GPT-3以1750亿参数构建起AI模型的"巨无霸"时代,边缘设备却仍在为7B模型3秒以上的推理延迟、14GB的显存占用而挣扎——这种算力需求的指数级增长与硬件资源有限性的尖锐冲突,正成为AI产业落地的核心矛盾[1][2]。深入神经网络内部,我们会发现这种矛盾的根源在于普遍存在的参数冗余现象:权重分布呈现明显的长尾特性(大部分权重值接近零)、神经元激活在推理中常为零值、层间存在可合并的冗余结构,甚至训练时为保证稳定性而引入的过参数,在推理阶段已非必需[3]。
西猫雷婶4 天前
人工智能·pytorch·python·深度学习·神经网络·机器学习
pytorch基本运算-Python控制流梯度运算前序学习进程中,已经对pytorch基本运算-梯度运算:requires_grad_(True)和backward()进行了学习,了解了pytorch求导的基本运算方法。 今天继续学习,当计算进入循环时,就进入了Python控制流,如何对Python控制流进行梯度运算就是学习目标。
ACEEE12224 天前
人工智能·pytorch·python·深度学习·机器学习·nlp·transformer
Stanford CS336 | Assignment 2 - FlashAttention-v2 Pytorch & Triotn实现在Transformer架构的工程优化中,注意力机制的计算效率是核心瓶颈之一。标准的缩放点积注意力(Scaled Dot-Product Attention)存在 O(T²d) 的时间复杂度和内存占用问题——当序列长度T超过1k时,显存消耗会急剧增加,甚至导致训练中断。为解决这一问题,FlashAttention-v2通过分块计算和LogSumExp数值优化,在保持精度的前提下,将显存占用降低至O(Td),同时通过硬件感知优化提升计算速度。
深耕AI5 天前
人工智能·pytorch·python
【PyTorch训练】准确率计算(代码片段拆解)标签:PyTorch, 准确率计算, 训练循环, 深度学习, 小白教程, 代码拆解大家好。今天我们来聊聊PyTorch中一个常见的训练循环代码片段:
nuczzz5 天前
人工智能·pytorch·机器学习·ai
pytorch非线性回归在上两篇文章中,我们简单了解了线性回归训练逻辑,其中有这样一段矩阵定义:X=[x1x2…xn] \begin{gather*} X = \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix} \end{gather*} X=[x1x2…xn]
~-~%%5 天前
人工智能·pytorch·python
Moe机制与pytorch实现核心思想实现方式负载均衡 (Load Balancing)https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/model.py Deepseek-V3源码Moe结构简化版实现
Garfield20055 天前
pytorch·flashattention·turing·图灵架构·t4·2080ti
绕过 FlashAttention-2 限制:在 Turing 架构上使用 PyTorch 实现 FlashAttentionFlashAttention【github】 系列,由斯坦福大学 AI 实验室的 Dao 等人提出,通过巧妙的 I/O 感知算法(I/O-aware algorithm)和自定义的 CUDA 内核(CUDA kernel)显著提升了 Transformer 模型中注意力机制的训练和推理速度,尤其是在长序列处理方面。
深耕AI5 天前
人工智能·pytorch·python
【PyTorch训练】为什么要有 loss.backward() 和 optimizer.step()?标签:PyTorch, 深度学习, 梯度下降, 反向传播大家好。今天我们来聊聊PyTorch(或类似深度学习框架)中训练模型的核心代码片段:loss.backward() 和 optimizer.step()。很多初学者看到这个可能会觉得“为什么非要这样写?能不能合二为一?”
七芒星20235 天前
人工智能·pytorch·深度学习·神经网络·学习·cnn
ResNet(详细易懂解释):残差网络的革命性突破想象一下,你在学做一道超级复杂的菜,比如“佛跳墙”。传统的深度学习网络:就像一个死记硬背的学徒。师傅告诉他,必须严格按照步骤来:先处理A食材,再处理B,然后炖C,最后加D。如果步骤(网络层数)太多太深,他学到后面可能就蒙逼了:“我丢,我第一步是啥来着?为啥第三步要那样做?” 结果就是,他不仅没学会新菜,连之前会的炒青菜(简单特征)都忘了。这在神经网络里叫做退化问题(Degradation Problem):网络不是越深越好,深到一定程度,准确率不升反降
九年义务漏网鲨鱼5 天前
pytorch
【Debug日志 | DDP 下 BatchNorm 统计失真】当我们在 4 卡 DDP 上训练一个图像分类模型,每张卡的显存几乎快溢出了,训练 loss 似乎在降,但 val acc 抖动剧烈、收敛很慢;切回单卡或把 batch 做大就好很多。
☼←安于亥时→❦6 天前
人工智能·pytorch·python
PyTorch 梯度与微积分梯度(Gradient)是数学中的一个重要概念,在深度学习中有特殊的意义。梯度是一个向量,表示多元函数在某点处变化最快的方向和变化率: 对于单变量函数:梯度就是导数 对于多变量函数:梯度是由各个偏导数组成的向量
缘友一世6 天前
pytorch·深度学习·神经网络
PyTorch深度学习实战【10】之神经网络的损失函数其中:上面的函数就是逻辑回归的似然函数。对该概率 P P P取以e为底的对数,再由 l o g ( A ⋅ B ) = l o g A + l o g B log(A \cdot B)=logA + logB log(A⋅B)=logA+logB和 l o g A B = B l o g A logA^B=BlogA logAB=BlogA可以得到逻辑回归的对数似然函数: ln ⁡ P = ln ⁡ ∏ i = 1 m ( σ i y i ⋅ ( 1 − σ i ) 1 − y i ) = ∑ i = 1
深耕AI6 天前
人工智能·pytorch·python
【参数详解与使用指南】PyTorch MNIST数据集加载在深度学习入门过程中,MNIST手写数字识别数据集可谓是“Hello World”级别的经典案例。本文将通过一段PyTorch代码,详细解析如何正确加载这一经典数据集。
星期天要睡觉6 天前
pytorch·深度学习·自然语言处理
深度学习——基于 PyTorch 的 CBOW 模型实现自然语言处理在自然语言处理(NLP)任务中,词向量(Word Embedding)是非常核心的概念。通过词向量,模型能够将离散的词语映射到连续的低维空间中,使得语义相近的词也能在向量空间中距离更近。本文将通过一个 基于 CBOW(Continuous Bag of Words)模型 的小示例,带领大家一步步理解词向量的构建与训练过程。