Pytorch实现RNN实验

一、实验要求

用 Pytorch 模块的 RNN 实现生成唐诗。要求给定一个字能够生成一首唐诗。

二、实验目的

  1. 理解循环神经网络(RNN)的基本原理:通过构建一个基于RNN的诗歌生成模型,学会RNN是如何处理序列数据的,以及如何在PyTorch中实现它。
  2. 掌握文本数据的预处理技巧,并学会构建一个文本生成模型
  3. 加深对循环神经网络的了解

三、实验过程

1.搭建模型

整体思路:

先进行文本预处理,读取诗歌数据,清理文本数据,并构建词汇表,记录每个字符的出现频率。然后将清理过的文本数据转换成模型可用的数字表示形式,并将整数表示的文本数据切分为多个序列,构建训练数据集。随后,定义一个基于RNN的模型,通过训练数据集迭代训练模型来优化模型参数。模型训练完成后可利用模型生成一定长度的新诗歌文本。

1)导入库和检查GPU可用性

导入Pytorch库并检查GPU是否可用。如果GPU可用,返回"True"

导入进行数据预处理和标记所需的库

2)定义超参数

定义了学习率、最大训练轮次、批处理大小以及是否使用GPU的标志。

3)数据处理

引入诗歌文件,形成诗歌数据集,并通过替换换行符和中文标点符号来清理文本

'TextConverter'类负责对文本数据进行预处理和转换

字符到整数和整数到字符的转换方法:

  1. word_to_int方法接受一个字符作为参数,返回字符在词汇表中的整数索引。如果字符不在词汇表中,则返回词汇表大小。
  2. int_to_word方法接受一个整数索引作为参数,返回该索引对应的字符。如果索引等于词汇表大小,返回中文逗号",";如果索引小于词汇表大小,则返回对应的字符;否则,抛出异常。

文本到数组和数组到文本的转换方法:

  1. text_to_arr方法接受一个文本字符串作为参数,返回一个由文本中每个字符对应整数索引组成的NumPy数组。
  2. arr_to_text方法接受一个整数索引数组作为参数,返回由数组中每个索引对应字符组成的字符串

准备数据集

定义数据集

4)定义RNN模型

使用PyTorch的nn.Module定义了RNN模型的结构

通过嵌入层将字符索引映射为密集向量,然后通过RNN层处理这些向量序列。最后,通过线性层将RNN输出映射为词汇表大小的向量。

5)模型初始化、损失和优化器

使用交叉熵损失函数(nn.CrossEntropyLoss())来度量模型输出与实际标签之间的差异。

使用Adam优化器(torch.optim.Adam)来更新模型参数,其中学习率为Learning_rate。

6)训练循环

通过反复迭代,模型在每个Epoch中根据训练数据调整参数,逐渐提高对中文诗歌模式的学习,使得生成的文本更符合训练数据的特征

2.对模型进行优化、改进

1)运行程序

根据提供的训练输出结果来看,Perplexity的数值较大,而Loss较高,说明模型在训练数据上的拟合效果相对较差。通常情况下,Perplexity较低且Loss较小的模型效果更好。

分析可能导致模型效果一般的原因:

  1. 增加模型复杂性:添加更多层或增加现有层中的隐藏单元数
  2. 使用LSTM或者GRU:捕捉序列中的长期依赖关系
  1. 调整嵌入维度:尝试不同的myRNN类中的embed_dim参数值
  2. 调整学习率
  3. 增加训练次数
  4. 实现验证集:将数据集拆分为训练集和验证集。使用验证集来监控训练过程中模型的性能。在验证损失不再下降或开始上升时停止训练。

2)修改模型结构,使用LSTM结构

并且将训练次数增加到50

输出结果为:

调整学习率为1e-5 ,输出

3)实现测试集:将数据集拆分为训练集和测试集

发现多次调参,调整Embedding层,调模型结构都没调出合适的模型,输出的诗句有很多重复的字。

4)选择将原模型增加测试集进行尝试

输出结果为

考虑到古诗上下文之间有一定的关联性

将n_step设置为30

输出结果为

将n_step设置为40

输出结果为

发现这种情况是所有实验中Loss最小的一种

四、实验结果

经过多次调参,优化模型,发现使用RNN结构,学习率为1e-4,epochs为50,n_setp为40时,得出的Loss最小。

五、实验总结

在修改深度学习代码,特别是从RNN迁移到LSTM的过程中,我遇到了一些挑战。首先,了解LSTM与RNN的区别和工作原理对于成功修改代码至关重要。其次,我注意到LSTM层的输入格式要求与RNN不同,需要将batch_first设置为True。在调试过程中,还遇到了一些GPU不可用的问题,通过检查CUDA是否可用、GPU驱动程序和PyTorch版本等方面找到解决方案。总的来说,通过修改代码将RNN替换为LSTM,我更深入地理解了这两者之间的差异。但是,由于自己的能力有限,在修改为LSTM后并没有成功优化模型。所以,最后还是将RNN结构模型增加测试集,得出一个相对较好的结果。

相关推荐
天涯海风2 小时前
检索增强生成(RAG) 缓存增强生成(CAG) 生成中检索(RICHES) 知识库增强语言模型(KBLAM)
人工智能·缓存·语言模型
lxmyzzs3 小时前
基于深度学习CenterPoint的3D目标检测部署实战
人工智能·深度学习·目标检测·自动驾驶·ros·激光雷达·3d目标检测
跟着珅聪学java3 小时前
Apache OpenNLP简介
人工智能·知识图谱
AwhiteV4 小时前
利用图数据库高效解决 Text2sql 任务中表结构复杂时占用过多大模型上下文的问题
数据库·人工智能·自然语言处理·oracle·大模型·text2sql
Black_Rock_br4 小时前
AI on Mac, Your Way!全本地化智能代理,隐私与性能兼得
人工智能·macos
☺����5 小时前
实现自己的AI视频监控系统-第一章-视频拉流与解码2
开发语言·人工智能·python·音视频
fsnine5 小时前
机器学习——数据清洗
人工智能·机器学习
小猿姐6 小时前
KubeBlocks AI:AI时代的云原生数据库运维探索
数据库·人工智能·云原生·kubeblocks
算法_小学生6 小时前
循环神经网络(RNN, Recurrent Neural Network)
人工智能·rnn·深度学习
吱吱企业安全通讯软件6 小时前
吱吱企业通讯软件保证内部通讯安全,搭建数字安全体系
大数据·网络·人工智能·安全·信息与通信·吱吱办公通讯