机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
进击的小头18 小时前
第3篇:最优控制理论数学基础——矩阵与向量的导数
python·线性代数·机器学习·矩阵
南滑散修18 小时前
机器学习(一)-数学基础
人工智能·机器学习
prince_zxill18 小时前
Raspberry Pi边缘AI:运行轻量级机器学习模型
人工智能·机器学习
放下华子我只抽RuiKe518 小时前
机器学习全景指南-基石篇——预测连续值的线性回归
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·线性回归
phoenix@Capricornus18 小时前
随机变量的方差
机器学习·概率论
逻辑君19 小时前
果蝇大脑被上传驱动虚拟身体-初探类脑计算
人工智能·神经网络·机器学习
星爷AG I19 小时前
14-5 运动控制的生态学理论(AGI基础理论)
人工智能·机器学习·agi
Takoony19 小时前
OpenClaw 深度拆解:下一代自主智能体架构全面解析
人工智能·深度学习·算法·机器学习·架构·openclaw
智算菩萨19 小时前
Chain-of-Thought Prompting:为什么逐步推理能提升大模型准确率
人工智能·深度学习·机器学习·语言模型·强化学习
Coovally AI模型快速验证19 小时前
CVPR 2026 | GS-CLIP:3D几何先验+双流视觉融合,零样本工业缺陷检测新SOTA,四大3D工业数据集全面领先!
人工智能·目标检测·机器学习·3d·数据挖掘·回归