【期末复习向】文本理解与数据挖掘-名词解释

（一）什么是自然语言处理

1.自然语言处理（NLP）

从最广泛的意义上说，NLP指的是任何自动处理人类语言的程序

（二）一系列自然语言处理问题

2.NLP常用方法

基于规则的方法（基于人工标注的规则和字典，覆盖度低）
统计机器学习方法（被学术界和工业界采用；使用概率模型，包括训练数据、特征工程、在参数上训练模型、将模型应用与测试数据）
联结主义方法（深度学习崛起，包括没有语言特征、采用大量原始数据训练、参数量大的神经网络）

3.句法分析的语法形式

成分句法分析：成分句法分析器将短语标签分配给组成成分，也称为短语结构语法。
依存句法分析：依存句法分析器分析一个句子的中心词和依赖词

超标注：也称为浅标注，在解析前的预处理步骤，从给定的句子中识别基本的句法短语（？？？老师给的PPT很垃圾，只能原话抄过来了 $苦笑$ ）

4.文本蕴含

两个文本之间的方向语义关系

5.语篇任务

语篇：多个子主题和连贯关系

语篇解析：分析话语中子主题之间的连贯关系

6.信息抽取

从非结构文本中抽取结构化信息

7.命名实体识别

从给定的文本中识别所有提及的命名实体

8.指代消解

解析代词或名词所指的内容

无代词解决：检测和解释丢弃的代词

9.共指关系

查找引用文本中中相同实体的所有表达

10.关系抽取

在一组预先指定的关系类别下识别实体之间的关系

11.知识图谱

一种数据库，实体构成节点，关系构成边

12.实体链接（实体消歧）

确定文本中提到的实体的身份

13.命名实体规范化

找到命名实体提及的规范术语

14.链接预测

知识图谱补全，知识图允许知识推理

15.事件相关的信息抽取任务

新闻事件检测；事件真实性预测；事件时间提取；因果关系检测

16.脚本学习

旨在提取一组部分有序的事件知识

16.情感分析相关的信息抽取任务

讽刺检测；情感词典获取（包含表达情感的词、极性和优势的词典【？？？抽象】）；情绪检测；立场检测和论证挖掘

17.文本生成任务

机器翻译、摘要、语法错误纠正（语法错误检测；不流畅检测；写作质量评估）、自动问答（基于知识的QA；阅读理解，以解释的方式回答问题；社区QA；开放域QA）；对话系统（闲聊以及面向任务的对话）

18.其他任务

信息检索（垃圾邮件检测）；推荐系统（利用文本评论进行推荐）；文本挖掘与分析（从文本中获取高质量信息，如股市预测、电影收入预测等）

（三）从机器学习视角看自然语言处理

19.从机器学习视角看NLP

分类任务：输出是一组不同的标签

结构预测：输出是具有相互关联的子结构的结构

回归任务：输出是一个实数值

20.从训练数据视角看NLP

无监督学习：没有人工标注的数据

监督学习：带有人工注释的黄金标准输出标签的数据

半监督学习：带标签的数据和不带注释的数据