《Ai学习笔记》自然语言处理 (Natural Language Processing):机器阅读理解-基础概念解析01

自然语言处理 (Natural Language Processing)

NLP四大基本任务

序列标注: 分词、词性标注

分类任务: 文本分类、情感分析

句子关系:问答系统、对话系统

生成任务:机器翻译、文章摘要

机器阅读理解的定义

Machine Reading Comprehension(MRC)机器阅读理解任务

QA问题的一个子集,含有contexts

通过交互从书面文字中提取与构造文章语义的过程

机器阅读理解场景

搜索引擎

机器回答&智能客服

垂直:医疗、法律、金融、教育等领域

MRC四大任务

完形填空

原文中除去若干关键词,需要模型填入正确的单词或者短语

多项选择

模型需要从给定的若干选项中给出正确答案

答案抽取

回答限定是文章中的一个子句,需要模型在文章中标注正确答案的起始和终止位置。

自由回答

不限制模型生成答案形式,允许模型自由产生数据

机器阅读理解方法

特征+传统机器学习

BERT以前:各种神奇的QA架构

BERT之后:预训练+微调+trick

机器学习总体架构

NLP相关任务的基本流程

文本预处理:构造训练语料

算法选择:输出数据-》规则

文本获取:

1、人工标注

2、用户标注

3、互联网收集后清洗

文本预处理:

1、去除冗余字符标记

2、分词(jieba/中文)

3、单词处理(英文:大写->小写,单词还原,同义词扩展)

4、去除停用词

总结:

在训练之前,要针对对应的模型:

1、确定目标大模型的训练语料格式

2、针对庞杂的文本文件进行去除标记、分词、单词处理、去除停用词。这些操作

3、得到的文件就可以用来预训练啦!

相关推荐
Raink老师7 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
寒秋花开曾相惜7 小时前
(学习笔记)第四章 处理器体系结构
linux·网络·数据结构·笔记·学习
qcx237 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI7 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372987 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询8 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju8 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方8 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114248 小时前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构
低代码布道师9 小时前
微搭低代码MBA 培训管理系统实战 30——学习卡
学习·低代码·rxjava