机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
Love__Tay24 分钟前
笔记/sklearn中的数据划分方法
笔记·机器学习·sklearn·数据划分
盼小辉丶29 分钟前
图机器学习(8)——经典监督图嵌入算法
人工智能·机器学习·图机器学习
豆浩宇1 小时前
Halcon双相机单标定板标定实现拼图
c++·人工智能·目标检测·机器学习·计算机视觉
纪伊路上盛名在2 小时前
(鱼书)深度学习入门3:手搓神经网络
人工智能·深度学习·神经网络·机器学习
羑悻的小杀马特4 小时前
从混沌到秩序:数据科学的热力学第二定律破局——线性回归的熵减模型 × 最小二乘的能量最小化 × 梯度下降的负反馈控制系统,用物理定律重构智能算法的统一场论
人工智能·算法·机器学习
SaleCoder8 小时前
用Python构建机器学习模型预测股票趋势:从数据到部署的实战指南
开发语言·python·机器学习·python股票预测·lstm股票模型·机器学习股票趋势
停走的风15 小时前
(李宏毅)deep learning(五)--learning rate
人工智能·深度学习·机器学习
大千AI助手18 小时前
OpenAI GPT-4o技术详解:全能多模态模型的架构革新与生态影响
人工智能·深度学习·机器学习·自然语言处理·大模型·openai·gpt-4o
Blossom.1181 天前
从“炼丹”到“流水线”——如何用Prompt Engineering把LLM微调成本打下来?
人工智能·python·深度学习·神经网络·学习·机器学习·prompt
远歌已逝1 天前
2025年夏Datawhale AI夏令营机器学习
人工智能·机器学习