自然语言处理 (Natural Language Processing):
NLP四大基本任务
序列标注: 分词、词性标注
分类任务: 文本分类、情感分析
句子关系:问答系统、对话系统
生成任务:机器翻译、文章摘要
机器阅读理解的定义
Machine Reading Comprehension(MRC)机器阅读理解任务
QA问题的一个子集,含有contexts
通过交互从书面文字中提取与构造文章语义的过程
机器阅读理解场景
搜索引擎
机器回答&智能客服
垂直:医疗、法律、金融、教育等领域
MRC四大任务
完形填空
原文中除去若干关键词,需要模型填入正确的单词或者短语
多项选择
模型需要从给定的若干选项中给出正确答案
答案抽取
回答限定是文章中的一个子句,需要模型在文章中标注正确答案的起始和终止位置。
自由回答
不限制模型生成答案形式,允许模型自由产生数据
机器阅读理解方法
特征+传统机器学习
BERT以前:各种神奇的QA架构
BERT之后:预训练+微调+trick
机器学习总体架构
NLP相关任务的基本流程
文本预处理:构造训练语料
算法选择:输出数据-》规则
文本获取:
1、人工标注
2、用户标注
3、互联网收集后清洗
文本预处理:
1、去除冗余字符标记
2、分词(jieba/中文)
3、单词处理(英文:大写->小写,单词还原,同义词扩展)
4、去除停用词
总结:
在训练之前,要针对对应的模型:
1、确定目标大模型的训练语料格式
2、针对庞杂的文本文件进行去除标记、分词、单词处理、去除停用词。这些操作
3、得到的文件就可以用来预训练啦!