本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第15章 序列生成模型,习题还没做先存在这里。
序列生成模型
序列概率模型
data:image/s3,"s3://crabby-images/12581/1258149bed8f56af1114636cf6af3d2c44d3da23" alt=""
序列生成
N元统计模型
深度序列模型
data:image/s3,"s3://crabby-images/17b9e/17b9e72190a1631b19aa33cd29e4d17a6996d489" alt=""
模型结构
data:image/s3,"s3://crabby-images/94b1b/94b1b21a06c0098f119b0c01a74cf1da366aea2e" alt=""
嵌入层
特征层
输出层
data:image/s3,"s3://crabby-images/09a62/09a6278c4a895973ae3170576304a718bee25359" alt=""
参数学习
data:image/s3,"s3://crabby-images/90c32/90c32f3e3939a3938122e52541063eff9618bbb5" alt=""
评价方法
data:image/s3,"s3://crabby-images/ad3ab/ad3ab9c48b365c8ab978fc36a065a0fe91492397" alt=""
困惑度
BLEU算法
ROUGE算法
data:image/s3,"s3://crabby-images/3cda7/3cda75397ad27eb33a5aa02d26cd7cc7e63b1d1f" alt=""
序列生成模型中的学习问题
data:image/s3,"s3://crabby-images/5c8c3/5c8c3ce9107fa9440a50f5a38251842faf5e201c" alt=""
曝光偏差模型
训练目标不一致问题
data:image/s3,"s3://crabby-images/d5c35/d5c354ac7be5a05f7ab9ba610c4e8f51e8dbd506" alt=""
计算效率问题
层次化Softmax
重要性采样
噪声对比估计
data:image/s3,"s3://crabby-images/9ee6a/9ee6a597e9bab01df5f73954947da4d270afdb81" alt=""
序列到序列模型
基于循环神经网络的序列到序列模型
基于注意力的序列到序列模型
data:image/s3,"s3://crabby-images/ed0fe/ed0fee6225a34c31e544d52cf2d5141ce13352d6" alt=""
基于自注意力的序列到序列模型
data:image/s3,"s3://crabby-images/86451/86451dc491d78d8f82cf0ee36e9d86c78def1eed" alt=""
自注意力
data:image/s3,"s3://crabby-images/de465/de465a589cf763c4a6a17b7b740e7fd0f527dbd3" alt=""
多头自注意力
data:image/s3,"s3://crabby-images/f292f/f292f8e3b15ecb567480afe7a1f9c65ef7437523" alt=""
基于自注意力模型的序列编码
Transformer模型
总结和深入阅读
习题
data:image/s3,"s3://crabby-images/2d962/2d9628fb468b958a186a6bbaeaab36af34bd8dbc" alt=""
data:image/s3,"s3://crabby-images/3e9fb/3e9fb583a1da086ba6e480fcd50cc22ecfe2ea0a" alt=""