机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
(; ̄ェ ̄)。6 小时前
机器学习入门(十五)集成学习,Bagging,Boosting,Voting,Stacking,随机森林,Adaboost
人工智能·机器学习·集成学习
春日见6 小时前
如何避免代码冲突,拉取分支
linux·人工智能·算法·机器学习·自动驾驶
Keep_Trying_Go8 小时前
基于GAN的文生图算法详解ControlGAN(Controllable Text-to-Image Generation)
人工智能·python·深度学习·神经网络·机器学习·生成对抗网络·文生图
懒羊羊吃辣条9 小时前
电力负荷预测怎么做才不翻车
人工智能·深度学习·机器学习·时间序列
人工智能培训11 小时前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·深度学习·机器学习·transformer·知识图谱·数字孪生·大模型幻觉
板面华仔11 小时前
机器学习入门(二)——逻辑回归 (Logistic Regression)
python·机器学习
一人の梅雨12 小时前
VVIC图片搜索接口进阶实战:服装批发场景下的精准识图与批量调度方案
开发语言·机器学习·php
矢志航天的阿洪13 小时前
IGRF-13 数学细节与公式说明
线性代数·机器学习·矩阵
小鸡吃米…14 小时前
机器学习 —— 数据缩放
人工智能·python·机器学习
JHC00000014 小时前
智能体造论子--简单封装大模型输出审核器
开发语言·python·机器学习