transformer

TGITCIC6 小时前
人工智能·gpt·大模型·aigc·bert·transformer
BERT与Transformer到底选哪个-下部2017年,Google Brain团队在《Attention is All You Need》中发布了Transformer架构,就像突然给AI界扔了个"核弹级"外卖保温箱——它用自注意力机制(Self-Attention)彻底颠覆了传统RNN的"接力赛"处理方式。 两年后,同样是Google的BERT横空出世,就像在保温箱里塞进了经过"千锤百炼"的预制菜:通过预训练+微调的"双阶段烹饪法",BERT把Transformer架构炼成了能"通吃"各种NLP任务的"万能汤底"。
TGITCIC1 天前
人工智能·gpt·大模型·aigc·bert·transformer
BERT与Transformer到底选哪个-上部就像「包子」和「面食」的关系——BERT是「Transformer家族」的「明星成员」,而GPT、Qwen、DeepSeek这些大模型则是「Transformer家族」的「超级后辈」。
xidianjiapei0011 天前
人工智能·语言模型·自然语言处理·llm·transformer
构建大语言模型应用:句子转换器(Sentence Transformers)(第三部分)在之前的博客中,我们学习了为RAG(检索增强生成,Retrieval Augmented Generation)进行数据准备,包括数据摄取(Data Ingestion)、数据预处理(Data Preparation)和分块(Chunking)。
机器学习之心2 天前
matlab·回归·多输入单输出回归预测·transformer·bilstm·nrbo
回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测1.【JCR一区级】Matlab实现NRBO-Transformer-BiLSTM多变量回归预测,牛顿-拉夫逊算法优化Transformer-BiLSTM组合模型(程序可以作为JCR一区级论文代码支撑,目前尚未发表);
机器学习之心3 天前
分类·cnn·transformer
CNN+Transformer+SE注意力机制多分类模型 + SHAP特征重要性分析,pytorch框架CNN提取一维序列的局部特征,如光谱峰值、表格数据趋势等。Transformer捕捉一维序列的全局依赖关系,解决长序列建模难题! 弥补CNN在长距离依赖建模上的不足,提升模型的全局特征提取能力。SE注意力机制动态调整特征通道权重,聚焦关键信息,提升分类精度! 支持多类别分类任务,适用于光谱分类、表格数据分类、时间序列分类等场景。 可自定义类别数量 输出训练损失和准确率,并评估训练集和测试集的准确率,精确率,召回率,f1分数,绘制roc曲线,混淆矩阵 结合SHAP(Shapley Additive exPl
KY_chenzhao3 天前
人工智能·语言模型·transformer
Transformer:破局山地暴雨预测的「地形诅咒」--AI智能体开发与大语言模型的本地化部署、优化技术‌延迟致命‌:WRF模式在1km分辨率下3小时预报耗时>45分钟,错过山洪黄金响应期‌地形干扰大‌:复杂地形区(如横断山脉)降水预测误差超50%
晨航4 天前
人工智能·机器学习·ai·aigc·transformer
浙江大学|DeepSeek系列公开课|第二季|DeepSeek技术溯源及前沿探索大家好,我是吾鳴。吾鳴之前给大家分享过浙江大学DeepSeek系列公开课第一季,第一季一共八讲,内容介绍丰富,内容之广,看完粉丝朋友直呼浙大良心。这八讲公开课名称分别是:
FuckTheWindows5 天前
深度学习·算法·transformer
Transformer中Decoder模块是如何预测下一个字符的算法关于Transformer模型的Encoder-Decoder模块网上介绍的文章非常多,写的非常详尽,可谓汗牛充栋,尤其关于注意力计算这块,不仅给出了公式而且还有具体的计算步骤。关于Transformer模型我觉得大部分文章语焉不详的有两块(可能是我的理解力比较差):
FL16238631295 天前
python·分类·transformer
[python]Swin Transformer图像分类安装和训练官方教程This folder contains the implementation of the Swin Transformer for image classification.
造夢先森6 天前
人工智能·神经网络·开源·transformer·deepseek
深度解读DeepSeek:开源周(Open Source Week)技术解读深度解读DeepSeek:开源周(Open Source Week)技术解读 深度解读DeepSeek:源码解读 DeepSeek-V3 深度解读DeepSeek:技术原理 深度解读DeepSeek:发展历程
catchtimea6 天前
python·gpt·bert·transformer·预训练模型·elmo
Transformer、ELMo、GPT、BERT的详细理解以上内容很多参考于博主 v_JULY_v-CSDN博客 的文章和b站up主 自然卷小蛮 的内容(自然卷小蛮的个人空间-自然卷小蛮个人主页-哔哩哔哩视频),如有侵权,联系删除。
1haooo7 天前
python·深度学习·神经网络·计算机视觉·transformer
Mamba 模型:深度学习序列建模的新突破在深度学习的发展历程中,大型基础模型(Foundation Models, FMs)取得了令人瞩目的进展,而其中 Transformer 架构及其核心的注意力模块占据了主导地位 。Transformer 在自然语言处理、计算机视觉等众多领域展现出了强大的能力,推动了人工智能技术的飞速发展。
KangkangLoveNLP7 天前
人工智能·深度学习·算法·机器学习·分类·lstm·transformer
从概率到梯度:理解分类问题中交叉熵的优越性因此,分类问题一般使用交叉熵而不是平方损失函数。
Donvink8 天前
人工智能·深度学习·语言模型·stable diffusion·aigc·transformer
【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍【Dive Into Stable Diffusion v3.5】系列博文:开源项目地址:https://github.com/Donvink/dive-into-stable-diffusion-v3-5 如果觉得有用,别忘了点个 ⭐️ 支持开源哦!
烟锁池塘柳08 天前
人工智能·深度学习·transformer
【深度学习】Self-Attention机制详解:Transformer的核心引擎在深度学习领域,Transformer架构的出现彻底改变了自然语言处理(NLP)的格局,而Self-Attention(自注意力)机制则是Transformer的核心组件。本文将深入浅出地介绍Self-Attention的原理、数学表达、实现方式以及应用场景,帮助读者全面理解这一重要机制。
RockLiu@8058 天前
图像处理·人工智能·transformer
图像处理中的Transformer Block实现与解析随着深度学习技术的不断进步,Transformer结构在自然语言处理领域取得了显著的成功。近年来,这种注意力机制也被引入到计算机视觉任务中,展示了其强大的表现力和效果提升能力。本文将从代码实现的角度,详细介绍一种用于图像处理的Transformer Block,并解析其实现细节。
阿正的梦工坊8 天前
人工智能·深度学习·神经网络·transformer
深入剖析ReLU激活函数:特性、优势与梯度消失问题的解决之道,以及Leaky ReLU 和 Parametric ReLU在深度学习领域,激活函数的选择直接影响神经网络的训练效果和性能。整流线性单元(Rectified Linear Unit,简称ReLU)因其简单性、高效性以及对梯度消失问题的缓解能力,成为现代深度神经网络中最常用的激活函数之一。本文将从ReLU的定义、数学特性、梯度行为以及其在深度学习中的应用出发,深入探讨其为何能有效避免梯度消失问题,并提供一些深刻的洞见,面向具有扎实基础的深度学习研究者。
小杜不吃糖8 天前
学习·transformer·llama
llama源码学习·model.py[7]Transformer类
雨墨C9 天前
人工智能·学习·自然语言处理·chatgpt·大模型·transformer
LLM-01-第一章-预训练/神经网络的激活函数(一)概述神经网络的激活函数(一)综述激活函数(Activation Function)是人工神经网络中的一个关键组件,它的作用是为神经网络引入非线性因素。如果没有激活函数,神经网络无论有多少层,都只能表示输入和输出之间的线性关系,这大大限制了网络处理复杂问题的能力。激活函数通常在神经网络的每个神经元或节点上应用,它们帮助网络学习和表示复杂的函数。