机器学习：提取问题答案

uncle_ll2023-07-29 11:57

模型BERT

任务：提取问题和答案

问题的起始位置和结束位置。

数据集

数据集 DRCD+ODSQA

先分词，然后tokenize

文章长度是不同的，bert的token的长度有限制，一般是512， self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。

Train

以正确答案为中心，以固定长度的windows去找问题。关键字，答案一般在关键字附近，在答案的附近画一个window，越大越好。然后将这些片段进行tokenizer，再去训练。

Hints

Linear Learning rate decay

overlapping window，因为分割可能会看不到，重叠一些部分。修改doc stride参数。

正确答案不一定是在窗户正中心。

不同的预训练模型，建议使用中文预训练模型。

自动混合精度，有的时候不需要那么高的精度Float32，仅部分卡支持，以加速训练。

如果GPU内存不够的话，可以使用Gradient accumulation，累计参数一次更新。

Kaggle项目

套件：pip install transformers

上一篇：SpringBoot项目使用MyBatisX+Apifox IDEA 插件快速开发

下一篇：[语义分割] DeepLab v3（Cascaded model、ASPP model、两种ASPP对比、Multi-grid、训练细节）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……