《Ai学习笔记》自然语言处理 (Natural Language Processing)：机器阅读理解-基础概念解析01

艺舟先生2024-05-23 11:58

自然语言处理 (Natural Language Processing)：

NLP四大基本任务

序列标注：分词、词性标注

分类任务：文本分类、情感分析

句子关系：问答系统、对话系统

生成任务：机器翻译、文章摘要

Machine Reading Comprehension(MRC)机器阅读理解任务

QA问题的一个子集，含有contexts

通过交互从书面文字中提取与构造文章语义的过程

搜索引擎

机器回答&智能客服

垂直：医疗、法律、金融、教育等领域

原文中除去若干关键词，需要模型填入正确的单词或者短语

模型需要从给定的若干选项中给出正确答案

回答限定是文章中的一个子句，需要模型在文章中标注正确答案的起始和终止位置。

不限制模型生成答案形式，允许模型自由产生数据

特征+传统机器学习

BERT以前：各种神奇的QA架构

BERT之后：预训练+微调+trick

文本预处理：构造训练语料

算法选择：输出数据-》规则

1、人工标注

2、用户标注

3、互联网收集后清洗

1、去除冗余字符标记

2、分词（jieba/中文）

3、单词处理（英文：大写->小写，单词还原，同义词扩展）

4、去除停用词

在训练之前，要针对对应的模型：

1、确定目标大模型的训练语料格式

2、针对庞杂的文本文件进行去除标记、分词、单词处理、去除停用词。这些操作

3、得到的文件就可以用来预训练啦！