【期末复习向】文本理解与数据挖掘-名词解释

(一)什么是自然语言处理

1.自然语言处理(NLP)

从最广泛的意义上说,NLP指的是任何自动处理人类语言的程序

(二)一系列自然语言处理问题

2.NLP常用方法

  • 基于规则的方法(基于人工标注的规则和字典,覆盖度低)
  • 统计机器学习方法(被学术界和工业界采用;使用概率模型,包括训练数据、特征工程、在参数上训练模型、将模型应用与测试数据)
  • 联结主义方法(深度学习崛起,包括没有语言特征、采用大量原始数据训练、参数量大的神经网络)

3.句法分析的语法形式

  • 成分句法分析:成分句法分析器将短语标签分配给组成成分,也称为短语结构语法。
  • 依存句法分析:依存句法分析器分析一个句子的中心词和依赖词

超标注:也称为浅标注,在解析前的预处理步骤,从给定的句子中识别基本的句法短语(???老师给的PPT很垃圾,只能原话抄过来了[苦笑])

4.文本蕴含

两个文本之间的方向语义关系

5.语篇任务

语篇:多个子主题和连贯关系

语篇解析:分析话语中子主题之间的连贯关系

6.信息抽取

从非结构文本中抽取结构化信息

7.命名实体识别

从给定的文本中识别所有提及的命名实体

8.指代消解

解析代词或名词所指的内容

无代词解决:检测和解释丢弃的代词

9.共指关系

查找引用文本中中相同实体的所有表达

10.关系抽取

在一组预先指定的关系类别下识别实体之间的关系

11.知识图谱

一种数据库,实体构成节点,关系构成边

12.实体链接(实体消歧)

确定文本中提到的实体的身份

13.命名实体规范化

找到命名实体提及的规范术语

14.链接预测

知识图谱补全,知识图允许知识推理

15.事件相关的信息抽取任务

新闻事件检测;事件真实性预测;事件时间提取;因果关系检测

16.脚本学习

旨在提取一组部分有序的事件知识

16.情感分析相关的信息抽取任务

讽刺检测;情感词典获取(包含表达情感的词、极性和优势的词典【???抽象】);情绪检测;立场检测和论证挖掘

17.文本生成任务

机器翻译、摘要、语法错误纠正(语法错误检测;不流畅检测;写作质量评估)、自动问答(基于知识的QA;阅读理解,以解释的方式回答问题;社区QA;开放域QA);对话系统(闲聊以及面向任务的对话)

18.其他任务

信息检索(垃圾邮件检测);推荐系统(利用文本评论进行推荐);文本挖掘与分析(从文本中获取高质量信息,如股市预测、电影收入预测等)

(三)从机器学习视角看自然语言处理

19.从机器学习视角看NLP

分类任务:输出是一组不同的标签

结构预测:输出是具有相互关联的子结构的结构

回归任务:输出是一个实数值

20.从训练数据视角看NLP

无监督学习:没有人工标注的数据

监督学习:带有人工注释的黄金标准输出标签的数据

半监督学习:带标签的数据和不带注释的数据

相关推荐
boooo_hhh39 分钟前
深度学习笔记16-VGG-16算法-Pytorch实现人脸识别
pytorch·深度学习·机器学习
AnnyYoung43 分钟前
华为云deepseek大模型平台:deepseek满血版
人工智能·ai·华为云
INDEMIND2 小时前
INDEMIND:AI视觉赋能服务机器人,“零”碰撞避障技术实现全天候安全
人工智能·视觉导航·服务机器人·商用机器人
慕容木木2 小时前
【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体的替代品,可本地部署+知识库,注册即可有750w的token使用
人工智能·火山引擎·deepseek·deepseek r1
南 阳2 小时前
百度搜索全面接入DeepSeek-R1满血版:AI与搜索的全新融合
人工智能·chatgpt
企鹅侠客2 小时前
开源免费文档翻译工具 可支持pdf、word、excel、ppt
人工智能·pdf·word·excel·自动翻译
冰淇淋百宝箱2 小时前
AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
人工智能·安全
Elastic 中国社区官方博客3 小时前
Elasticsearch Open Inference API 增加了对 Jina AI 嵌入和 Rerank 模型的支持
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
美狐美颜sdk3 小时前
直播美颜工具架构设计与性能优化实战:美颜SDK集成与实时处理
深度学习·美颜sdk·第三方美颜sdk·视频美颜sdk·美颜api
AWS官方合作商3 小时前
Amazon Lex:AI对话引擎重构企业服务新范式
人工智能·ai·机器人·aws