规则和传统NLP之困难和挑战

系列文章目录

第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式


规则和传统NLP之困难和挑战

  • 系列文章目录
  • [一、 NLP的困难与挑战](#一、 NLP的困难与挑战)
  • [二、 语言歧义](#二、 语言歧义)
    • [1. 同音词](#1. 同音词)
    • [2. 词性歧义](#2. 词性歧义)
    • [3. 分词导致的歧义](#3. 分词导致的歧义)
    • [4. 语法结构歧义](#4. 语法结构歧义)
    • [5. 语境歧义](#5. 语境歧义)
  • [三、 不同语言结构差异](#三、 不同语言结构差异)
  • 四、未知语言不可预测性
  • [五、 语言表达的复杂性](#五、 语言表达的复杂性)
  • [六、 潜台词](#六、 潜台词)
  • [七、 背景与常识](#七、 背景与常识)

一、 NLP的困难与挑战

二、 语言歧义

1. 同音词

有一次,纪晓岚与和珅一同在朝为官,纪晓岚任侍郎,和珅任尚书。两人在一起喝酒时,和珅指着一只狗问纪晓岚:

和珅(尚书):纪侍郎,纪大人,这是何物?是狼是狗?(侍郎是狗)

纪晓岚(侍郎):和尚书,和大人,这好办。看尾巴呀,下垂是狼,上竖是狗,记住了。(尚书是狗)

2. 词性歧义

动物保护警察("保护"可理解成动词、名词,语义不一样)

3. 分词导致的歧义

例1:自动化研究所取得的成就

  • 理解一:自动化 / 研究 / 所 / 取得 / 的 / 成就
  • 理解二:自动化 / 研究所 / 取得 / 的 / 成就

例2:武汉市长江大桥

  • 分词1:武汉市/长江大桥
  • 分词2:武汉/市长/江大桥

4. 语法结构歧义

  • 喜欢乡下的孩子
  • 关于鲁迅的文章

5. 语境歧义

  1. 你太棒了,你简直是个天才!(真心恭喜)
  2. 你太棒了,你简直是个天才!(阴阳师)

三、 不同语言结构差异

四、未知语言不可预测性

语言在不断演化,每年都有为数不少的新词语、新语料出现,给一些NLP处理任务造成困难。以下列举了几个2024年网络上出现的新词语:

  • city不city:用来形容"洋气不洋气",源于"citywalk"的流行,意味着没有攻略、随机走路的时尚态度。
  • 钝感艺术:一种自嘲的说法,用来形容人"缺心眼",但并非贬义,而是指在某些情况下不敏感、不计较的态度。
  • 边界感:用来描述对"隐私"的尊重和保护意识。
  • 泰裤辣:音译自英文"too cool啦",表示"太酷了"的意思。
  • PPT你:指"画饼",即给你描绘一个美好的未来,但实际行动上却没有任何实质性的进展。
  • 嘴替:网友帮忙说出自己心里话的人或言论。
  • 配享太庙:网络用语中用来夸赞某专家或权威人士说的很对,有很高的赞誉和尊敬之意。

五、 语言表达的复杂性

甲:你这是什么意思?

乙:没什么意思,意思意思。

甲:你这就不够意思了。

乙:小意思,小意思。

甲:你这人真有意思。

乙:其实也没有别的意思。

甲:那我就不好意思了。

六、 潜台词

  1. 原话 :这件事要走流程,我这样也很难办
    潜台词:一点好处都没有,就想空手套白狼

  2. 原话 :这个事情怎么样了,你抽空落实一下
    潜台词:别墨迹了,抓紧去办,办好给我回复

  3. 原话 :你最近身体怎么样?是不是家里有困难?
    潜台词:你最近工作状态不好,工作质量也不高

  4. 原话 :小伙子很有性格
    潜台词:你有点锋芒太盛了,不听话迟早把你换掉

  5. 原话 :这件事你看着办
    潜台词:这么简单的事你都办不好,如果你办不好,我就把你办了

七、 背景与常识

  1. 中国国家队比赛最没悬念的是乒乓球和足球,他们一个谁也打不过,另一个谁也打不过。

  2. 请计算:大锤减小锤加宫廷玉液酒等于多少?

  3. 穿越者表明身份:奇变偶不变:天王盖地虎:你的益达:今年过节不收礼:

相关推荐
X journey2 小时前
机器学习实战(19):如何做一个完整的项目
人工智能·机器学习
惊鸿一博3 小时前
自动驾驶的 BEV 特征(Bird’s Eye View Feature)
人工智能·机器学习·自动驾驶
碳基硅坊4 小时前
Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比
人工智能·qwen·qwen3.6
TeDi TIVE10 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
MY_TEUCK10 小时前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
三毛的二哥10 小时前
BEV:典型BEV算法总结
人工智能·算法·计算机视觉·3d
j_xxx404_11 小时前
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解
人工智能·ai·transformer
飞哥数智坊11 小时前
全新 SOLO 在日常办公中的实际体验
人工智能·solo
<-->11 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer