机器学习:提取问题答案

模型BERT

任务:提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词,然后tokenize

文章长度是不同的,bert的token的长度有限制,一般是512, self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心,以固定长度的windows去找问题。关键字,答案一般在关键字附近,在答案的附近画一个window,越大越好。然后将这些片段进行tokenizer,再去训练。

Hints


  • Linear Learning rate decay

overlapping window, 因为分割可能会看不到,重叠一些部分。 修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型,建议使用中文预训练模型。



自动混合精度,有的时候不需要那么高的精度Float32,仅部分卡支持,以加速训练。

如果GPU内存不够的话,可以使用Gradient accumulation,累计参数一次更新。

Kaggle项目

套件:pip install transformers

相关推荐
汽车仪器仪表相关领域2 分钟前
动态间隙精准诊断:NHJX-13 型底盘间隙仪机动车底盘安全检测全方案
大数据·人工智能·机器学习·单元测试·压力测试·可用性测试
HyperAI超神经13 分钟前
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG
人工智能·深度学习·学习·机器学习·gpu·orc·vllm
郝学胜-神的一滴15 分钟前
张量维度操控心法:从reshape到升维降维,吃透PyTorch形状操作的底层逻辑
人工智能·pytorch·python·深度学习·程序人生·算法·机器学习
极光代码工作室16 分钟前
基于AI的学习辅助系统设计
人工智能·机器学习·ai·系统设计
落羽的落羽30 分钟前
【Linux系统】入门线程:线程介绍与线程控制
linux·服务器·c++·人工智能·stm32·单片机·机器学习
qq_3597162310 小时前
openpi使用过程中相关问题
人工智能·深度学习·机器学习
阿钱真强道11 小时前
08 从 MLP 到 LeNet:为什么一个神经元不够?
深度学习·神经网络·机器学习·mlp·决策边界
罗西的思考12 小时前
【OpenClaw】通过Nanobot源码学习架构---(2)外层控制逻辑
人工智能·机器学习
FluxMelodySun14 小时前
机器学习(二十八) 特征选择与常见的特征选择方法
人工智能·机器学习
水中加点糖14 小时前
多模态数据标注平台LabelStudio——部署与智能标注体验
人工智能·机器学习·自动标注·数据标注·labelstudio·ai标注·标注平台