NLP概述
- 一、NLP概述
- 二、NLP的主要任务
-
- [2.1 词级任务](#2.1 词级任务)
-
- [2.1.1 分词](#2.1.1 分词)
- [2.1.2 词性的标注(POS Tagging)](#2.1.2 词性的标注(POS Tagging))
- [2.1.3 命名实体识别 (NER)](#2.1.3 命名实体识别 (NER))
- [2.1.4 词义消除](#2.1.4 词义消除)
- [2.2 句子级任务](#2.2 句子级任务)
-
- [2.2.1 句法分析](#2.2.1 句法分析)
- [2.2.2 情感分析](#2.2.2 情感分析)
- [2.3 文档级任务](#2.3 文档级任务)
-
- [2.3.1 文本分类](#2.3.1 文本分类)
- [2.3.2 文本摘要](#2.3.2 文本摘要)
- [2.3.3 信息检索](#2.3.3 信息检索)
- [2.4 跨文档级别任务](#2.4 跨文档级别任务)
-
- [2.4.1 知识图谱的构建](#2.4.1 知识图谱的构建)
- [2.4.2 信息抽取](#2.4.2 信息抽取)
- [2.4.3 多文档的摘要](#2.4.3 多文档的摘要)
- [2.5 更高级别的](#2.5 更高级别的)
-
- [2.5.1 对话系统](#2.5.1 对话系统)
- [2.5.2 机器翻译](#2.5.2 机器翻译)
- [2.5.3 文本生成](#2.5.3 文本生成)
一、NLP概述
- 人工智能领域的一个重要子学科
- 研究计算如何处理理解及应用人类语言
- 研究人与计算机之间用自然语言进行有效沟通的各种理论和方法
二、NLP的主要任务

2.1 词级任务
2.1.1 分词
- 将一段连续的文字切分成有意义的词语
- 需要注意的是,对于像英语一样,天生有空格分隔的拉丁语系来说,分隔比较简单,但是对于像中文,日语一样,分割就变得十分重要例如:
| 文本: | 段聪爱大语言模型 |
|---|---|
| 分词: | 段聪/爱/大语言模型 |
2.1.2 词性的标注(POS Tagging)
- 为每一个句子中的每一个单词标注词性
- 可以是名词,副词,形容词,动词,专有名词
| 文本: | 欧阳聪爱大语言模型 |
|---|---|
| 词性标注: | 欧阳儒(可能是动词)/爱(动词)/大语言模型(名词) |
2.1.3 命名实体识别 (NER)
- 识别文本中的实体,人民,地名,组织
| 文本: | 段儒在2026年成为武汉大学最吊的 博士生 |
|---|---|
| 实体标注: | 段儒(可能是人名)/2026年(时间)/武汉大学(牛逼的组织) |
2.1.4 词义消除
- 根据上下文消除词语的歧义
| 词语: | 苹果 |
|---|---|
| 句子1: | 欧阳聪昨天在水果店买了一个苹果(水果),打算作为午餐后的甜点。 |
| 句子2: | 欧阳聪在1976年推出了第一款苹果(公司)电脑,彻底改变了个人电脑行业。 |
2.2 句子级任务
2.2.1 句法分析
- 分析句子的结构就比如主谓宾
| 文本: | 欧阳儒对段聪展开了轰轰烈烈的追求 |
|---|---|
| 句法分析: | 欧阳儒(主语)对段聪(介宾短语做状语)展开了(谓语)轰轰烈烈的(定语)追求(宾语) |
2.2.2 情感分析
- 识别提取文本中的情感信息,消极的,积极的情感都可以
| 句子: | 你们这些搞大模型的码奸,你们已经害死了前端兄弟,现在还要害死后端兄弟,运维兄弟,网安兄弟 |
|---|---|
| 情感分析: | 极强的愤怒、悲愤、不满、行业焦虑、强烈批判与控诉,带着互联网程序员群体的自嘲、恐慌、被替代的危机感,情绪浓烈且尖锐,满是戾气与无奈。 |
2.3 文档级任务
2.3.1 文本分类
- 文本分类:将整篇文档分配到特定类别。
文本分类是自然语言处理中的一项技术,旨在将文本自动分配到一个或多个预定义的类别中。其主要目标是从大量文
本中提取出有用的信息,并帮助用户快速找到所需内容。
| 文本: | 今天在东京举行了奥运会的开幕式,各国运动员齐聚一堂,展现了团结与友谊的精神。 |
|---|---|
| 分类任务 | 新闻报道分类 |
| 分类结果 | 体育 |
2.3.2 文本摘要
- 为整个文档生成简洁的摘要。
文本摘要是自然语言处理中的一项技术,旨在从较长文本中提取出关键信息,生成简洁明了的摘要。其主要目标是帮
助读者快速获取信息的核心内容,而无需阅读完整文本。
- 原文
python
"""
在过去的十年中,人工智能技术得到了迅猛的发展,已经渗透到各个行业。无论是自动驾驶汽车、语音助手,还是图像识
别系统,人工智能正逐渐成为我们日常生活中不可或缺的一部分。许多公司也开始将人工智能应用于业务流程中,以提高
工作效率和客户体验。例如,在医疗领域,人工智能可以帮助医生更快地诊断疾病,并提供个性化的治疗方案。此外,教
育行业也在利用人工智能来优化学习体验,帮助学生根据个人需求定制学习计划。然而,随着技术的发展,伦理问题和数
据隐私问题也随之而来,这需要社会各界共同努力,建立相关的法律法规来保护用户的权益。
"""
- 摘要
人工智能技术迅速发展,已渗透到各个行业,提升工作效率和客户体验。尽管在医疗和教育领域展现出巨大潜力,但伦理和数据隐私问题也需要关注。
2.3.3 信息检索
- 从文档集合中提取相关信息。(RAG的核心技术之一)
信息检索是自然语言处理和计算机科学中的一项技术,旨在从大量信息中找到相关的数据或文档。
-
示例
-
查询:智能手机的相机性能如何?
-
信息检索结果:
-
文章1:近年来,智能手机相机的像素数不断提高,各大品牌推出了多种摄影模式,满足用户需求。
-
文章2:智能手机的相机不仅在像素上有了提升,同时还加入了夜景、微距等多种拍照功能,极大地丰富了用户体验。
2.4 跨文档级别任务
2.4.1 知识图谱的构建
- 知识图谱构建:从多个文档中提取信息并构建知识图谱。
知识图谱是自然语言处理和人工智能领域的一种结构化表示,用于描述实体及其之间的关系。其主要目标是将信息以
图的形式组织,使计算机能够更好地理解和推理知识。
- 输入文本(模拟跨文档)
文档1:阿尔伯特·爱因斯坦于1879年出生在德国乌尔姆,他是20世纪最著名的物理学家之一。
文档2:1905年,爱因斯坦发表了狭义相对论,彻底改变了物理学。
文档3:广义相对论是爱因斯坦在1915年提出的理论,用于解释引力现象。
- 抽取结果(三元组)
(爱因斯坦, 出生于, 1879年)
(爱因斯坦, 出生地点, 德国乌尔姆)
(爱因斯坦, 是, 物理学家)
(爱因斯坦, 提出, 狭义相对论)
(狭义相对论, 发表于, 1905年)
(爱因斯坦, 提出, 广义相对论)
(广义相对论, 提出于, 1915年)
- 知识图谱可视化
爱因斯坦\] ─(出生于)→ \[1879年
│
├(出生地点)→ [德国乌尔姆]
│
├(是)→ [物理学家]
│
└(提出)→ [狭义相对论] ─(发表于)→ [1905年]
└(提出)→ [广义相对论] ─(提出于)→ [1915年]
2.4.2 信息抽取
- 从文档中抽取结构化信息(如事件、关系)
信息抽取是自然语言处理中的一项技术,旨在从非结构化或半结构化的文本中提取出结构化的信息。其主要目标是将文本中的关键信息自动提取出来,以便于后续分析和使用。
- 文本1:华为公司于2024年在深圳总部发布了 Mate 70系列智能手机。
- 文本2:该系列搭载了麒麟芯片,相机性能大幅提升,受到了全球消费者的广泛关注。
- 文本3:Mate 70 Pro版本预计在2025年第一季度上市。
- 信息抽取结果
| 类型 | 抽取内容 | 关系/属性 |
|---|---|---|
| 组织 | 华为公司 | 发布 |
| 产品 | Mate 70系列 | 搭载 |
| 芯片 | 麒麟芯片 | 搭载 |
| 地点 | 深圳总部 | 发布地点 |
| 时间 | 2024年 | 发布时间 |
| 时间 | 2025年第一季度 | 上市时间 |
| 产品 | Mate 70 Pro | 版本 |
2.4.3 多文档的摘要
对多个文档生成综合性摘要。
- 示例
文档1:智能手机市场正在快速发展,各大品牌不断推出新款手机,尤其在相机性能和处理速度方面竞争激烈。
文档2:根据最新报告,智能手机的销量在2023年创下新高,消费者对高性能相机的需求持续增加。
文档3:未来的智能手机将更加注重摄影功能,许多公司正在研发具备先进拍照技术的设备,以满足市场需求。
多文档摘要
智能手机市场正在迅速发展,2023年销量创下新高,消费者对高性能相机的需求不断增加。各大品牌纷纷推出新款手机,竞争激烈,未来的智能手机将更加注重摄影功能,以满足市场需求。
2.5 更高级别的
2.5.1 对话系统
- 建立与用户的对话,包括上下文理解和多轮对话管理。
对话系统是自然语言处理领域的一种技术,旨在与用户进行自然语言的交互。这类系统能够理解用户的输入,并给出合适的响应。其主要目标是提供智能的、流畅的人机交互体验。
- 示例:
-
用户:今天的天气怎么样?
-
对话系统:
意图识别:查询天气
实体识别:今天
-
响应:今天的天气晴朗,气温在25摄氏度左右。你需要知道明天的天气吗?
-
用户:是的,明天呢?
-
对话系统:
意图识别:查询天气
实体识别:明天
-
响应:明天的天气预报显示有小雨,气温在20到22摄氏度之间。你还想了解其他信息吗?
-
用户:我想知道明天的气象指数。
-
对话系统:
意图识别:查询气象指数
实体识别:明天
-
响应:明天的气象指数为中等,适合外出,但建议携带雨具以防小雨。
2.5.2 机器翻译
- 机器翻译:将整段文本从一种语言翻译成另一种语言。
机器翻译是自然语言处理领域的一项技术,旨在自动将一种语言的文本翻译成另一种语言。其主要目标是帮助人们跨越语言障碍,获取和理解不同语言的信息。
- 示例
源文本(中文):我喜欢学习新的语言。
机器翻译结果(英文):I enjoy learning new languages.
2.5.3 文本生成
- 文本生成:根据上下文生成连贯的文本(如自动编写故事或新闻)。
文本生成是自然语言处理中的一项技术,旨在自动创建符合特定要求或风格的文本内容。其主要目标是生成自然流畅且有意义的文本,以满足用户需求。
- 示例:登高之后
往昔岁月多磨砺,今朝心境渐舒张。
心愿花开春意浓,豪情渐起照天旁。
微风轻拂步悠扬,一日赏遍世间香。
峰巅静立眺远方,心怀壮志笑风霜。