机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
曦月逸霜6 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
CSND7407 小时前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
AI医影跨模态组学7 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学
温九味闻醉8 小时前
关于腾讯广告算法大赛2025项目分析3-重读
人工智能·机器学习
AI医影跨模态组学12 小时前
Cancer Letters(IF=10.1)中山大学附属第六医院等团队:基于治疗前MRI影像的RCMIX模型预测MRI定义的cT4期直肠癌T分期下降
人工智能·机器学习·论文·医学·医学影像·影像组学
染指111014 小时前
3.AI大模型-token是什么-大模型底层运行机制
人工智能·算法·机器学习
南宫萧幕14 小时前
基于 Simulink 与 Python 联合仿真的 eVTOL 强化学习全链路实战
开发语言·人工智能·python·算法·机器学习·控制
哥布林学者14 小时前
深度学习进阶(二十二)T5:NLP任务的首次大一统
机器学习·ai
通信小呆呆15 小时前
注意力机制用于信号同步:从匹配滤波到可学习对齐
人工智能·学习·机器学习·信息与通信
初心未改HD17 小时前
机器学习之梯度提升与XGBoost详解
人工智能·机器学习