机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
星释1 小时前
Rust 练习册 :Phone Number与电话号码处理
开发语言·机器学习·rust
大大dxy大大7 小时前
机器学习实现逻辑回归-癌症分类预测
机器学习·分类·逻辑回归
武子康7 小时前
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
没有钱的钱仔10 小时前
机器学习笔记
人工智能·笔记·机器学习
DP+GISer13 小时前
基于站点数据进行遥感机器学习参数反演-以XGBOOST反演LST为例(附带数据与代码)试读
人工智能·python·机器学习·遥感与机器学习
LHZSMASH!18 小时前
神经流形:大脑功能几何基础的革命性视角
人工智能·深度学习·神经网络·机器学习
青云交18 小时前
Java 大视界 --Java 大数据在智慧农业农产品市场价格预测与种植决策支持中的应用实战
机器学习·智慧农业·数据安全·农业物联网·价格预测·java 大数据·种植决策
大明者省18 小时前
图像卷积操值超过了255怎么处理
深度学习·神经网络·机器学习
小白狮ww19 小时前
模型不再是一整块!Hunyuan3D-Part 实现可控组件式 3D 生成
人工智能·深度学习·机器学习·教程·3d模型·hunyuan3d·3d创作
印象编程19 小时前
数据挖掘 | 决策树ID3算法
机器学习·数据挖掘