机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
学步_技术2 小时前
自动驾驶系列—全面解析自动驾驶线控制动技术:智能驾驶的关键执行器
人工智能·机器学习·自动驾驶·线控系统·制动系统
大神薯条老师2 小时前
Python从入门到高手4.3节-掌握跳转控制语句
后端·爬虫·python·深度学习·机器学习·数据分析
_.Switch4 小时前
Python机器学习框架介绍和入门案例:Scikit-learn、TensorFlow与Keras、PyTorch
python·机器学习·架构·tensorflow·keras·scikit-learn
魔力之心4 小时前
人工智能与机器学习原理精解【30】
人工智能·机器学习
毕小宝6 小时前
逻辑回归(下): Sigmoid 函数的发展历史
算法·机器学习·逻辑回归
一水鉴天9 小时前
智能工厂的软件设计 作为“程序Program”的中台
运维·人工智能·机器学习·中间件
AI完全体9 小时前
【AI知识点】二项分布(Binomial Distribution)
人工智能·机器学习·数学建模·概率论·统计学·伯努利试验·离散概率分布
卧蚕土豆10 小时前
【有啥问啥】卡尔曼滤波(Kalman Filter):从噪声中提取信号的利器
人工智能·算法·机器学习
奈斯。zs11 小时前
yjs11——pandas运算
人工智能·python·机器学习·pandas