transformer与神经网络

一.神经网络

1.卷积神经CNN:适合处理图像,计算机视觉领域

2.循环神经RNN:存储序列数据,记住过去的信息应用到当前处理过程中,序列不能太长

3.长短时记忆网络LSTM:特殊的RNN,RNN的改进版本,能够更好捕捉长距离依赖关系

4.transformer

(1)并行计算

(2)捕捉长距离依赖

(3)可扩展性

(4)灵活性和效果

二.transformer工作原理

1.原理图

2.Transformer模型的生成过程可以分为以下4****个步骤:

(1)分词(Tokenization):token大模型中的最基本的处理单元

1)把汉字拆成积木(从前 / 国王 / 女儿)

(2)词嵌入(Embedding):矩阵计算

(3)注意力机制(Attention Mechanism):捕捉词之间的关联程度

1) 编码器处理:分析问题,用注意力划重点(国王和女儿的关系等)

2) 解码器处理:边编故事边查表,用注意力确保连贯

(4)最终的内容生成(Content Generation):输出结果

相关推荐
小白狮ww2 天前
LAMMPS 教程:移动原子演示
人工智能·深度学习·机器学习
CoovallyAIHub3 天前
中科大DSAI Lab团队多篇论文入选ICCV 2025,推动三维视觉与泛化感知技术突破
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
开源的消逝与新生:从 TensorFlow 的落幕到开源生态的蜕变
pytorch·深度学习·llm
CoovallyAIHub3 天前
港大&字节重磅发布DanceGRPO:突破视觉生成RLHF瓶颈,多项任务性能提升超180%!
深度学习·算法·计算机视觉
CoovallyAIHub3 天前
英伟达ViPE重磅发布!解决3D感知难题,SLAM+深度学习完美融合(附带数据集下载地址)
深度学习·算法·计算机视觉
惯导马工4 天前
【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
深度学习·算法
隐语SecretFlow5 天前
国人自研开源隐私计算框架SecretFlow,深度拆解框架及使用【开发者必看】
深度学习
Billy_Zuo5 天前
人工智能深度学习——卷积神经网络(CNN)
人工智能·深度学习·cnn
羊羊小栈5 天前
基于「YOLO目标检测 + 多模态AI分析」的遥感影像目标检测分析系统(vue+flask+数据集+模型训练)
人工智能·深度学习·yolo·目标检测·毕业设计·大作业
l12345sy5 天前
Day24_【深度学习—广播机制】
人工智能·pytorch·深度学习·广播机制