规则和传统NLP之NLP概述

NLP概述

  • 一、NLP概述
  • 二、NLP的主要任务
    • [2.1 词级任务](#2.1 词级任务)
      • [2.1.1 分词](#2.1.1 分词)
      • [2.1.2 词性的标注(POS Tagging)](#2.1.2 词性的标注(POS Tagging))
      • [2.1.3 命名实体识别 (NER)](#2.1.3 命名实体识别 (NER))
      • [2.1.4 词义消除](#2.1.4 词义消除)
    • [2.2 句子级任务](#2.2 句子级任务)
      • [2.2.1 句法分析](#2.2.1 句法分析)
      • [2.2.2 情感分析](#2.2.2 情感分析)
    • [2.3 文档级任务](#2.3 文档级任务)
      • [2.3.1 文本分类](#2.3.1 文本分类)
      • [2.3.2 文本摘要](#2.3.2 文本摘要)
      • [2.3.3 信息检索](#2.3.3 信息检索)
    • [2.4 跨文档级别任务](#2.4 跨文档级别任务)
      • [2.4.1 知识图谱的构建](#2.4.1 知识图谱的构建)
      • [2.4.2 信息抽取](#2.4.2 信息抽取)
      • [2.4.3 多文档的摘要](#2.4.3 多文档的摘要)
    • [2.5 更高级别的](#2.5 更高级别的)
      • [2.5.1 对话系统](#2.5.1 对话系统)
      • [2.5.2 机器翻译](#2.5.2 机器翻译)
      • [2.5.3 文本生成](#2.5.3 文本生成)

一、NLP概述

  • 人工智能领域的一个重要子学科
  • 研究计算如何处理理解及应用人类语言
  • 研究人与计算机之间用自然语言进行有效沟通的各种理论和方法

二、NLP的主要任务

2.1 词级任务

2.1.1 分词

  • 将一段连续的文字切分成有意义的词语
  • 需要注意的是,对于像英语一样,天生有空格分隔的拉丁语系来说,分隔比较简单,但是对于像中文,日语一样,分割就变得十分重要例如:
文本: 段聪爱大语言模型
分词: 段聪/爱/大语言模型

2.1.2 词性的标注(POS Tagging)

  • 为每一个句子中的每一个单词标注词性
  • 可以是名词,副词,形容词,动词,专有名词
文本: 欧阳聪爱大语言模型
词性标注: 欧阳儒(可能是动词)/爱(动词)/大语言模型(名词)

2.1.3 命名实体识别 (NER)

  • 识别文本中的实体,人民,地名,组织
文本: 段儒在2026年成为武汉大学最吊的 博士生
实体标注: 段儒(可能是人名)/2026年(时间)/武汉大学(牛逼的组织)

2.1.4 词义消除

  • 根据上下文消除词语的歧义
词语: 苹果
句子1: 欧阳聪昨天在水果店买了一个苹果(水果),打算作为午餐后的甜点。
句子2: 欧阳聪在1976年推出了第一款苹果(公司)电脑,彻底改变了个人电脑行业。

2.2 句子级任务

2.2.1 句法分析

  • 分析句子的结构就比如主谓宾
文本: 欧阳儒对段聪展开了轰轰烈烈的追求
句法分析: 欧阳儒(主语)对段聪(介宾短语做状语)展开了(谓语)轰轰烈烈的(定语)追求(宾语)

2.2.2 情感分析

  • 识别提取文本中的情感信息,消极的,积极的情感都可以
句子: 你们这些搞大模型的码奸,你们已经害死了前端兄弟,现在还要害死后端兄弟,运维兄弟,网安兄弟
情感分析: 极强的愤怒、悲愤、不满、行业焦虑、强烈批判与控诉,带着互联网程序员群体的自嘲、恐慌、被替代的危机感,情绪浓烈且尖锐,满是戾气与无奈。

2.3 文档级任务

2.3.1 文本分类

  • 文本分类:将整篇文档分配到特定类别。

文本分类是自然语言处理中的一项技术,旨在将文本自动分配到一个或多个预定义的类别中。其主要目标是从大量文

本中提取出有用的信息,并帮助用户快速找到所需内容。

文本: 今天在东京举行了奥运会的开幕式,各国运动员齐聚一堂,展现了团结与友谊的精神。
分类任务 新闻报道分类
分类结果 体育

2.3.2 文本摘要

  • 为整个文档生成简洁的摘要。

文本摘要是自然语言处理中的一项技术,旨在从较长文本中提取出关键信息,生成简洁明了的摘要。其主要目标是帮

助读者快速获取信息的核心内容,而无需阅读完整文本。

  • 原文
python 复制代码
"""
在过去的十年中,人工智能技术得到了迅猛的发展,已经渗透到各个行业。无论是自动驾驶汽车、语音助手,还是图像识
别系统,人工智能正逐渐成为我们日常生活中不可或缺的一部分。许多公司也开始将人工智能应用于业务流程中,以提高
工作效率和客户体验。例如,在医疗领域,人工智能可以帮助医生更快地诊断疾病,并提供个性化的治疗方案。此外,教
育行业也在利用人工智能来优化学习体验,帮助学生根据个人需求定制学习计划。然而,随着技术的发展,伦理问题和数
据隐私问题也随之而来,这需要社会各界共同努力,建立相关的法律法规来保护用户的权益。
"""
  • 摘要

人工智能技术迅速发展,已渗透到各个行业,提升工作效率和客户体验。尽管在医疗和教育领域展现出巨大潜力,但伦理和数据隐私问题也需要关注。

2.3.3 信息检索

  • 从文档集合中提取相关信息。(RAG的核心技术之一)

信息检索是自然语言处理和计算机科学中的一项技术,旨在从大量信息中找到相关的数据或文档。

  • 示例

  • 查询:智能手机的相机性能如何?

  • 信息检索结果:

  • 文章1:近年来,智能手机相机的像素数不断提高,各大品牌推出了多种摄影模式,满足用户需求。

  • 文章2:智能手机的相机不仅在像素上有了提升,同时还加入了夜景、微距等多种拍照功能,极大地丰富了用户体验。

2.4 跨文档级别任务

2.4.1 知识图谱的构建

  • 知识图谱构建:从多个文档中提取信息并构建知识图谱。

知识图谱是自然语言处理和人工智能领域的一种结构化表示,用于描述实体及其之间的关系。其主要目标是将信息以

图的形式组织,使计算机能够更好地理解和推理知识。

  • 输入文本(模拟跨文档)

文档1:阿尔伯特·爱因斯坦于1879年出生在德国乌尔姆,他是20世纪最著名的物理学家之一。

文档2:1905年,爱因斯坦发表了狭义相对论,彻底改变了物理学。

文档3:广义相对论是爱因斯坦在1915年提出的理论,用于解释引力现象。

  • 抽取结果(三元组)

(爱因斯坦, 出生于, 1879年)

(爱因斯坦, 出生地点, 德国乌尔姆)

(爱因斯坦, 是, 物理学家)

(爱因斯坦, 提出, 狭义相对论)

(狭义相对论, 发表于, 1905年)

(爱因斯坦, 提出, 广义相对论)

(广义相对论, 提出于, 1915年)

  • 知识图谱可视化

爱因斯坦\] ─(出生于)→ \[1879年

├(出生地点)→ [德国乌尔姆]

├(是)→ [物理学家]

└(提出)→ [狭义相对论] ─(发表于)→ [1905年]

└(提出)→ [广义相对论] ─(提出于)→ [1915年]

2.4.2 信息抽取

  • 从文档中抽取结构化信息(如事件、关系)
    信息抽取是自然语言处理中的一项技术,旨在从非结构化或半结构化的文本中提取出结构化的信息。其主要目标是将文本中的关键信息自动提取出来,以便于后续分析和使用。
  1. 文本1:华为公司于2024年在深圳总部发布了 Mate 70系列智能手机。
  2. 文本2:该系列搭载了麒麟芯片,相机性能大幅提升,受到了全球消费者的广泛关注。
  3. 文本3:Mate 70 Pro版本预计在2025年第一季度上市。
  • 信息抽取结果
类型 抽取内容 关系/属性
组织 华为公司 发布
产品 Mate 70系列 搭载
芯片 麒麟芯片 搭载
地点 深圳总部 发布地点
时间 2024年 发布时间
时间 2025年第一季度 上市时间
产品 Mate 70 Pro 版本

2.4.3 多文档的摘要

对多个文档生成综合性摘要。

  • 示例

文档1:智能手机市场正在快速发展,各大品牌不断推出新款手机,尤其在相机性能和处理速度方面竞争激烈。

文档2:根据最新报告,智能手机的销量在2023年创下新高,消费者对高性能相机的需求持续增加。

文档3:未来的智能手机将更加注重摄影功能,许多公司正在研发具备先进拍照技术的设备,以满足市场需求。

多文档摘要

智能手机市场正在迅速发展,2023年销量创下新高,消费者对高性能相机的需求不断增加。各大品牌纷纷推出新款手机,竞争激烈,未来的智能手机将更加注重摄影功能,以满足市场需求。

2.5 更高级别的

2.5.1 对话系统

  • 建立与用户的对话,包括上下文理解和多轮对话管理。

对话系统是自然语言处理领域的一种技术,旨在与用户进行自然语言的交互。这类系统能够理解用户的输入,并给出合适的响应。其主要目标是提供智能的、流畅的人机交互体验。

  • 示例:
  • 用户:今天的天气怎么样?

  • 对话系统:

    意图识别:查询天气

    实体识别:今天

  • 响应:今天的天气晴朗,气温在25摄氏度左右。你需要知道明天的天气吗?

  • 用户:是的,明天呢?

  • 对话系统:

    意图识别:查询天气

    实体识别:明天

  • 响应:明天的天气预报显示有小雨,气温在20到22摄氏度之间。你还想了解其他信息吗?

  • 用户:我想知道明天的气象指数。

  • 对话系统:

    意图识别:查询气象指数

    实体识别:明天

  • 响应:明天的气象指数为中等,适合外出,但建议携带雨具以防小雨。

2.5.2 机器翻译

  • 机器翻译:将整段文本从一种语言翻译成另一种语言。

机器翻译是自然语言处理领域的一项技术,旨在自动将一种语言的文本翻译成另一种语言。其主要目标是帮助人们跨越语言障碍,获取和理解不同语言的信息。

  • 示例

源文本(中文):我喜欢学习新的语言。

机器翻译结果(英文):I enjoy learning new languages.


2.5.3 文本生成

  • 文本生成:根据上下文生成连贯的文本(如自动编写故事或新闻)。

文本生成是自然语言处理中的一项技术,旨在自动创建符合特定要求或风格的文本内容。其主要目标是生成自然流畅且有意义的文本,以满足用户需求。

  • 示例:登高之后
    往昔岁月多磨砺,今朝心境渐舒张。
    心愿花开春意浓,豪情渐起照天旁。
    微风轻拂步悠扬,一日赏遍世间香。
    峰巅静立眺远方,心怀壮志笑风霜。

相关推荐
user_admin_god1 小时前
AI编码OpenCode入门到入神
java·人工智能
nap-joker2 小时前
Trompt:迈向更优质的深度神经网络,用于表格数据
人工智能·神经网络·dnn
一路向北he2 小时前
EQ增益值
人工智能
数字供应链安全产品选型2 小时前
2026 AI安全左移再进化:从IDE插件到CI门禁,悬镜灵境AIDR的全流程集成实践
ide·人工智能·安全
deephub2 小时前
为生产级 AI Agent 构建持久化记忆:五阶段流水线与四种设计模式
人工智能·大语言模型·agent·记忆
淘矿人2 小时前
2026大模型API中转平台深度评测:weelinking领衔五大服务商横向实测与选型指南
开发语言·人工智能·python·oracle·数据挖掘·php·pygame
南子北游2 小时前
计算机视觉学习(一)
人工智能·学习·计算机视觉
人工智能AI技术2 小时前
自然语言处理 NLP 基础:AI 听懂人话的秘密
人工智能
ayingmeizi1632 小时前
从能用到好用,从替代到首选,国产CRM该如何选型
人工智能·crm