transformer

晨航8 小时前
人工智能·机器学习·ai·aigc·transformer
浙江大学|DeepSeek系列公开课|第二季|DeepSeek技术溯源及前沿探索大家好,我是吾鳴。吾鳴之前给大家分享过浙江大学DeepSeek系列公开课第一季,第一季一共八讲,内容介绍丰富,内容之广,看完粉丝朋友直呼浙大良心。这八讲公开课名称分别是:
FuckTheWindows1 天前
深度学习·算法·transformer
Transformer中Decoder模块是如何预测下一个字符的算法关于Transformer模型的Encoder-Decoder模块网上介绍的文章非常多,写的非常详尽,可谓汗牛充栋,尤其关于注意力计算这块,不仅给出了公式而且还有具体的计算步骤。关于Transformer模型我觉得大部分文章语焉不详的有两块(可能是我的理解力比较差):
FL16238631291 天前
python·分类·transformer
[python]Swin Transformer图像分类安装和训练官方教程This folder contains the implementation of the Swin Transformer for image classification.
造夢先森2 天前
人工智能·神经网络·开源·transformer·deepseek
深度解读DeepSeek:开源周(Open Source Week)技术解读深度解读DeepSeek:开源周(Open Source Week)技术解读 深度解读DeepSeek:源码解读 DeepSeek-V3 深度解读DeepSeek:技术原理 深度解读DeepSeek:发展历程
catchtimea2 天前
python·gpt·bert·transformer·预训练模型·elmo
Transformer、ELMo、GPT、BERT的详细理解以上内容很多参考于博主 v_JULY_v-CSDN博客 的文章和b站up主 自然卷小蛮 的内容(自然卷小蛮的个人空间-自然卷小蛮个人主页-哔哩哔哩视频),如有侵权,联系删除。
1haooo3 天前
python·深度学习·神经网络·计算机视觉·transformer
Mamba 模型:深度学习序列建模的新突破在深度学习的发展历程中,大型基础模型(Foundation Models, FMs)取得了令人瞩目的进展,而其中 Transformer 架构及其核心的注意力模块占据了主导地位 。Transformer 在自然语言处理、计算机视觉等众多领域展现出了强大的能力,推动了人工智能技术的飞速发展。
KangkangLoveNLP3 天前
人工智能·深度学习·算法·机器学习·分类·lstm·transformer
从概率到梯度:理解分类问题中交叉熵的优越性因此,分类问题一般使用交叉熵而不是平方损失函数。
Donvink4 天前
人工智能·深度学习·语言模型·stable diffusion·aigc·transformer
【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍【Dive Into Stable Diffusion v3.5】系列博文:开源项目地址:https://github.com/Donvink/dive-into-stable-diffusion-v3-5 如果觉得有用,别忘了点个 ⭐️ 支持开源哦!
烟锁池塘柳04 天前
人工智能·深度学习·transformer
【深度学习】Self-Attention机制详解:Transformer的核心引擎在深度学习领域,Transformer架构的出现彻底改变了自然语言处理(NLP)的格局,而Self-Attention(自注意力)机制则是Transformer的核心组件。本文将深入浅出地介绍Self-Attention的原理、数学表达、实现方式以及应用场景,帮助读者全面理解这一重要机制。
RockLiu@8054 天前
图像处理·人工智能·transformer
图像处理中的Transformer Block实现与解析随着深度学习技术的不断进步,Transformer结构在自然语言处理领域取得了显著的成功。近年来,这种注意力机制也被引入到计算机视觉任务中,展示了其强大的表现力和效果提升能力。本文将从代码实现的角度,详细介绍一种用于图像处理的Transformer Block,并解析其实现细节。
阿正的梦工坊4 天前
人工智能·深度学习·神经网络·transformer
深入剖析ReLU激活函数:特性、优势与梯度消失问题的解决之道,以及Leaky ReLU 和 Parametric ReLU在深度学习领域,激活函数的选择直接影响神经网络的训练效果和性能。整流线性单元(Rectified Linear Unit,简称ReLU)因其简单性、高效性以及对梯度消失问题的缓解能力,成为现代深度神经网络中最常用的激活函数之一。本文将从ReLU的定义、数学特性、梯度行为以及其在深度学习中的应用出发,深入探讨其为何能有效避免梯度消失问题,并提供一些深刻的洞见,面向具有扎实基础的深度学习研究者。
小杜不吃糖4 天前
学习·transformer·llama
llama源码学习·model.py[7]Transformer类
雨墨C5 天前
人工智能·学习·自然语言处理·chatgpt·大模型·transformer
LLM-01-第一章-预训练/神经网络的激活函数(一)概述神经网络的激活函数(一)综述激活函数(Activation Function)是人工神经网络中的一个关键组件,它的作用是为神经网络引入非线性因素。如果没有激活函数,神经网络无论有多少层,都只能表示输入和输出之间的线性关系,这大大限制了网络处理复杂问题的能力。激活函数通常在神经网络的每个神经元或节点上应用,它们帮助网络学习和表示复杂的函数。
cv2016_DL7 天前
人工智能·机器学习·语言模型·自然语言处理·transformer
多模态大模型常见问题1.视觉编码器和 LLM 连接时,使用 BLIP2中 Q-Former那种复杂的 Adaptor 好还是 LLaVA中简单的 MLP 好,说说各自的优缺点?
STRUGGLE_3997 天前
人工智能·深度学习·transformer
【论文笔记】Transformer2017 年,谷歌团队提出 Transformer 结构,Transformer 首先应用在自然语言处理领域中的机器翻译任务上,Transformer 结构完全构建于注意力机制,完全丢弃递归和卷积的结构,这使得 Transformer 结构效率更高。迄今为止,Transformer 广泛应用于深度学习的各个领域。
zbdx不知名菜鸡7 天前
transformer·attention·概率论
self Attention为何除以根号dk?(全新角度)假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即: q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)∼N(0,1)(m=1,2,…,dk) 此时,每个分量的均值为0,方差为1。
IT从业者张某某8 天前
人工智能·语言模型·transformer·datawhale
大语言模型-2.1-Transformer架构及详细配置本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。