【课程总结】Day17(下):初始Seq2Seq模型

前言

"日月忽其不淹兮,春与秋其代序。"

技术更新的车轮在滚滚向前,曾经名噪一时的RNN模型,在新的技术革新下也渐渐落幕,本章我们将初步了解Seq2Seq模型,同时借助Demo代码,对Seq2Seq模型有一个直观了解。

Encoder-Decoder的回顾

回顾【课程总结】Day15(上):图像分割之语义分割,我们曾接触到U-Net模型,它是一种Encoder-Decoder模型。在此,我们重新回顾理解Encoder-Decoder模型。

  • Encoder-Decoder是一个通用的框架。
  • Encoder又称作编码器。它的作用就是:将现实问题转化为数学问题。
  • Decoder又称作解码器,它的作用是:求解数学问题,并转化为现实世界的解决方案。

只要符合上面的框架,都可以统称为Encoder-Decoder模型,其中sequence-to-sequence就是Encoder-Decoder的一种特例。

Encoder-Decoder的应用

图片 - 图片

应用:U-net系列算法的应用,如肝脏识别

音频 - 文本

应用:语音识别

图片 - 文本

应用:图像描述生成(看图说话)

论文地址:https://arxiv.org/pdf/1505.00487

文本 - 文本

应用:机器翻译,对话机器人,文章摘要,代码补全

其中,文本(RNN) - 文本(RNN)是NLP第一模型!

Seq2Seq模型

模型简介

序列到序列(seq2seq)模型是一种用于处理序列数据的架构,主要用于将一个输入序列转换为一个输出序列。它广泛应用于机器翻译、文本摘要、对话系统等任务。

模型结构

下图所示的是一个典型的机器翻译任务中,输入的文本序列(源语言表述)到输出的文本序列(目标语言表述)之间的变换。

进一步,显示编码器和解码器结构如下图:

进一步,展开编码器和解码器的步骤如下图:

进一步,结合之前所了解RNN知识,展开其结构如下图:

解释说明:

  • Seq - Encoder编码器

    • 作用:解析问句,将其编码为一个中间表达Vector
    • 本质:一个RNN(自动完成循环,一次性得到结果即可)
  • 中间表达

    • 作用:承上启下,既是上句处理的结果,又是下句生成的参考。
    • 本质:编码器RNN的最后一个时间步的隐藏状态 hn
  • Seq - Decoder解码器

    • 作用:把中间表达作为初始化状态,逐个生成下句
    • 本质:一个RNN(单步生成,自回归,即:一次生成一个词)

Seq2Seq的实践

接下来,我们通过运行示例代码,对Seq2Seq模型有一个直观了解。

拉取代码

shell 复制代码
git clone https://github.com/domonic18/seq2seq_demo.git

安装依赖包

shell 复制代码
pip install jieba
pip install OpenCC

训练

shell 复制代码
# 进入seq2seq_demo目录
python main.py

运行结果:

可以看到首次运行的时候,预测结果与真实结果相差甚远,可以说翻译的能力很差。

当训练到第6轮的时候,预测结果与真实结果已经非常接近。

验证翻译能力

输入:Am I wrong?

可以看到经过初步训练,模型可以翻译简单的英语句子。

输入:A word spoken is past recalling.

对比有道词典的翻译结果,其翻译能力还是不足的。原因是当前的demo中data训练集只有3万条数据,如果加大data.txt的训练集数据,模型的能力是可以进一步提升的。

内容小结

  • Encoder-Decoder是一种通用的架构,Encoder-Decoder模型有多种应用,其中文本-文本广泛应用于机器翻译、文本摘要,对话系统等任务,是NLP的第一模型。
  • Seq2Seq模型是Encoder-Decoder模型的一种特例。
  • Encoder编码器的作用是解析问句,将其编码为一个中间表达Vector,其本质是一个RNN。
  • 中间表达承上启下,既是上句处理的结果,又是下句生成的参考,其本质是编码器RNN的最后一个时间步的隐藏状态 hn
  • Decoder解码器的作用是把中间表达作为初始化状态,逐个生成下句,其本质是一个自回归的RNN。

参考资料

CNBlog:Seq2Seq原理详解
CSDN:自然语言处理从零到入门 Encoder-Decoder 与 Seq2Seq

相关推荐
程序员辣条几秒前
为什么需要提示词工程?什么是提示词工程(prompt engineering)?为什么需要提示词工程?收藏我这一篇就够了!
人工智能·程序员·产品经理
孔令飞4 分钟前
Go:终于有了处理未定义字段的实用方案
人工智能·云原生·go
清流君18 分钟前
【MySQL】数据库 Navicat 可视化工具与 MySQL 命令行基本操作
数据库·人工智能·笔记·mysql·ue5·数字孪生
Blossom.11825 分钟前
人工智能在智能家居中的应用与发展
人工智能·深度学习·机器学习·智能家居·vr·虚拟现实·多模态融合
biter008827 分钟前
ubuntu(28):ubuntu系统多版本conda和多版本cuda共存
linux·人工智能·ubuntu·conda
电鱼智能的电小鱼1 小时前
基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌
linux·网络·人工智能·嵌入式硬件·无人机·边缘计算
HyperAI超神经1 小时前
12个HPC教程汇总!从入门到实战,覆盖分子模拟/材料计算/生物信息分析等多个领域
图像处理·人工智能·深度学习·生物信息·分子模拟·材料计算·vasp
正在走向自律1 小时前
AI数字人:繁荣背后的伦理困境与法律迷局(8/10)
人工智能·python·opencv·语音识别·ai数字人·ai伦理与法律
qq_436962181 小时前
AI数据分析的利器:解锁BI工具的无限潜力
人工智能·数据挖掘·数据分析·ai数据分析