01 TextRNN & FastText & TextCNN-04-训练要点,实验过程

TextRNN & FastText & TextCNN-03-模型总览,后

训练要点

RNN训练

得出来的y(m)(预测标签)是每一个分类的概率,比如是一个五分类,化成5个格子,每一个格子是概率,5个格子加起来是1

损失

有多任务怎么计算loss,通过一个线性的一个变换来将所有的这些loss累加到一起。

大M就是代表我们有多少任务,比如我们有4个数据集,M就等于4

λm是权重,4个任务的权重不一样

数据的选择

训练方法:

1.随机选择一项任务;

2.从该任务中随机选择一个训练样本;

3.根据基于梯度的优化

(paper 中使用 Adagradupdate rule)来更新参数;

4.重复 1-3 步。

微调

预训练

对于模型三来说,共享层可以用所有的任务数据(4个数据集)进行预训练。模型三就可以获得四个数据集的所有信息。

用无监督的方法去预训练一些信息。

实验设置和结果分析

实验结果和分析知识树

数据集

4个数据集

SST-1:5个情绪类别的电影影评,来自斯坦福情感数据库

SST-2:2分类电影影评,来自斯坦福数据库

SUBJ:主观性数据集,任务目的是将句子分为主观和客观

IMDB:2分类的电影影评,大多数评价为长句子

数据的对比

超参与训练

使用 word2vec在维基语料获得词向量字典规模约 500,000。词嵌入在训练过程中被微调以提高性能;其他参数在[-0.1,0.1]的范围随机采样,超参数将选择在验证集上性能最好的一组。对于没有验证集的数据集使用 10 折交叉验证。

特定任务和共享层的嵌入大小为 64。对于模型一,每个单词有两个嵌入,大小都为 64。
LSTM 的隐藏层大小为 50。初始学习率为0.1。参数的正则化权值为 10^-5.

相关推荐
化作星辰20 分钟前
深度学习_神经网络激活函数
人工智能·深度学习·神经网络
陈天伟教授23 分钟前
人工智能技术- 语音语言- 03 ChatGPT 对话、写诗、写小说
人工智能·chatgpt
llilian_1626 分钟前
智能数字式毫秒计在实际生活场景中的应用 数字式毫秒计 智能毫秒计
大数据·网络·人工智能
打码人的日常分享1 小时前
基于信创体系政务服务信息化建设方案(PPT)
大数据·服务器·人工智能·信息可视化·架构·政务
硬汉嵌入式1 小时前
专为 MATLAB 优化的 AI 助手MATLAB Copilot
人工智能·matlab·copilot
北京盛世宏博2 小时前
如何利用技术手段来甄选一套档案馆库房安全温湿度监控系统
服务器·网络·人工智能·选择·档案温湿度
搞科研的小刘选手2 小时前
【EI稳定】检索第六届大数据经济与信息化管理国际学术会议(BDEIM 2025)
大数据·人工智能·经济
半吊子全栈工匠2 小时前
软件产品的10个UI设计技巧及AI 辅助
人工智能·ui
机器之心3 小时前
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
人工智能·openai
机器之心3 小时前
马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
人工智能·openai