transformer与神经网络

一.神经网络

1.卷积神经CNN:适合处理图像,计算机视觉领域

2.循环神经RNN:存储序列数据,记住过去的信息应用到当前处理过程中,序列不能太长

3.长短时记忆网络LSTM:特殊的RNN,RNN的改进版本,能够更好捕捉长距离依赖关系

4.transformer

(1)并行计算

(2)捕捉长距离依赖

(3)可扩展性

(4)灵活性和效果

二.transformer工作原理

1.原理图

2.Transformer模型的生成过程可以分为以下4****个步骤:

(1)分词(Tokenization):token大模型中的最基本的处理单元

1)把汉字拆成积木(从前 / 国王 / 女儿)

(2)词嵌入(Embedding):矩阵计算

(3)注意力机制(Attention Mechanism):捕捉词之间的关联程度

1) 编码器处理:分析问题,用注意力划重点(国王和女儿的关系等)

2) 解码器处理:边编故事边查表,用注意力确保连贯

(4)最终的内容生成(Content Generation):输出结果

相关推荐
大千AI助手1 天前
Megatron-LM张量并行详解:原理、实现与应用
人工智能·大模型·llm·transformer·模型训练·megatron-lm张量并行·大千ai助手
Cathy Bryant1 天前
智能模型对齐(一致性)alignment
笔记·神经网络·机器学习·数学建模·transformer
XIAO·宝1 天前
深度学习------图像分割项目
人工智能·深度学习·图像分割
渡我白衣1 天前
C++:链接的两难 —— ODR中的强与弱符号机制
开发语言·c++·人工智能·深度学习·网络协议·算法·机器学习
翔云 OCR API1 天前
基于深度学习与OCR研发的报关单识别接口技术解析
人工智能·深度学习·ocr
3Bronze1Pyramid1 天前
深度学习参数优化
人工智能·深度学习
小彭律师1 天前
QCES项目Windows平台运行指南
深度学习·金融·科研·科研记录
九章云极AladdinEdu1 天前
神经符号系统架构:结合深度学习与符号推理的混合智能
人工智能·深度学习·知识图谱补全·神经符号系统·可微分推理·符号规则引擎·混合智能
夫唯不争,故无尤也1 天前
三大AI部署框架对比:本地权重与多模型协作实战
人工智能·python·深度学习
be_humble1 天前
GPU机器-显卡占用
pytorch·python·深度学习