transformer与神经网络

一.神经网络

1.卷积神经CNN:适合处理图像,计算机视觉领域

2.循环神经RNN:存储序列数据,记住过去的信息应用到当前处理过程中,序列不能太长

3.长短时记忆网络LSTM:特殊的RNN,RNN的改进版本,能够更好捕捉长距离依赖关系

4.transformer

(1)并行计算

(2)捕捉长距离依赖

(3)可扩展性

(4)灵活性和效果

二.transformer工作原理

1.原理图

2.Transformer模型的生成过程可以分为以下4****个步骤:

(1)分词(Tokenization):token大模型中的最基本的处理单元

1)把汉字拆成积木(从前 / 国王 / 女儿)

(2)词嵌入(Embedding):矩阵计算

(3)注意力机制(Attention Mechanism):捕捉词之间的关联程度

1) 编码器处理:分析问题,用注意力划重点(国王和女儿的关系等)

2) 解码器处理:边编故事边查表,用注意力确保连贯

(4)最终的内容生成(Content Generation):输出结果

相关推荐
沪漂阿龙30 分钟前
LangChain 系列之 Messages:为什么大模型对话不是简单字符串?
人工智能·深度学习·langchain
DXM05211 小时前
第13期|遥感语义分割模型:U-Net核心原理+遥感落地优势
人工智能·python·深度学习·目标检测·随机森林·机器学习·支持向量机
叫我:松哥1 小时前
基于Python的共享单车租赁数据分析与预测系统,技术栈flask+boostrap+随机森林+XGBoost
人工智能·python·深度学习·算法·随机森林·数据分析·flask
王小王-1232 小时前
基于深度学习的个性化音乐推荐系统的设计与开发
人工智能·深度学习·mysql·vue·推荐算法·个性化音乐推荐系统·音乐预测
现代野蛮人2 小时前
【深度学习】 —— 几种优化器对比实验
人工智能·深度学习·分类·tensorflow
AI浩2 小时前
用于无人机目标检测的三模态融合 Transformer
目标检测·transformer·无人机
啦啦啦_99992 小时前
迁移学习案例_中文文本分类案例
transformer
YOLO视觉与编程2 小时前
jetson orin nano烧录jetpack7.2系统
人工智能·深度学习·yolo·目标检测·机器学习
DeniuHe3 小时前
什么是嵌入空间?听起来高大上,其实。。。
深度学习
qq_291579253 小时前
电商主图优化实战指南:AI工具如何提升点击率与转化率
大数据·人工智能·深度学习