规则和传统NLP之困难和挑战

系列文章目录

第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式


规则和传统NLP之困难和挑战

  • 系列文章目录
  • [一、 NLP的困难与挑战](#一、 NLP的困难与挑战)
  • [二、 语言歧义](#二、 语言歧义)
    • [1. 同音词](#1. 同音词)
    • [2. 词性歧义](#2. 词性歧义)
    • [3. 分词导致的歧义](#3. 分词导致的歧义)
    • [4. 语法结构歧义](#4. 语法结构歧义)
    • [5. 语境歧义](#5. 语境歧义)
  • [三、 不同语言结构差异](#三、 不同语言结构差异)
  • 四、未知语言不可预测性
  • [五、 语言表达的复杂性](#五、 语言表达的复杂性)
  • [六、 潜台词](#六、 潜台词)
  • [七、 背景与常识](#七、 背景与常识)

一、 NLP的困难与挑战

二、 语言歧义

1. 同音词

有一次,纪晓岚与和珅一同在朝为官,纪晓岚任侍郎,和珅任尚书。两人在一起喝酒时,和珅指着一只狗问纪晓岚:

和珅(尚书):纪侍郎,纪大人,这是何物?是狼是狗?(侍郎是狗)

纪晓岚(侍郎):和尚书,和大人,这好办。看尾巴呀,下垂是狼,上竖是狗,记住了。(尚书是狗)

2. 词性歧义

动物保护警察("保护"可理解成动词、名词,语义不一样)

3. 分词导致的歧义

例1:自动化研究所取得的成就

  • 理解一:自动化 / 研究 / 所 / 取得 / 的 / 成就
  • 理解二:自动化 / 研究所 / 取得 / 的 / 成就

例2:武汉市长江大桥

  • 分词1:武汉市/长江大桥
  • 分词2:武汉/市长/江大桥

4. 语法结构歧义

  • 喜欢乡下的孩子
  • 关于鲁迅的文章

5. 语境歧义

  1. 你太棒了,你简直是个天才!(真心恭喜)
  2. 你太棒了,你简直是个天才!(阴阳师)

三、 不同语言结构差异

四、未知语言不可预测性

语言在不断演化,每年都有为数不少的新词语、新语料出现,给一些NLP处理任务造成困难。以下列举了几个2024年网络上出现的新词语:

  • city不city:用来形容"洋气不洋气",源于"citywalk"的流行,意味着没有攻略、随机走路的时尚态度。
  • 钝感艺术:一种自嘲的说法,用来形容人"缺心眼",但并非贬义,而是指在某些情况下不敏感、不计较的态度。
  • 边界感:用来描述对"隐私"的尊重和保护意识。
  • 泰裤辣:音译自英文"too cool啦",表示"太酷了"的意思。
  • PPT你:指"画饼",即给你描绘一个美好的未来,但实际行动上却没有任何实质性的进展。
  • 嘴替:网友帮忙说出自己心里话的人或言论。
  • 配享太庙:网络用语中用来夸赞某专家或权威人士说的很对,有很高的赞誉和尊敬之意。

五、 语言表达的复杂性

甲:你这是什么意思?

乙:没什么意思,意思意思。

甲:你这就不够意思了。

乙:小意思,小意思。

甲:你这人真有意思。

乙:其实也没有别的意思。

甲:那我就不好意思了。

六、 潜台词

  1. 原话 :这件事要走流程,我这样也很难办
    潜台词:一点好处都没有,就想空手套白狼

  2. 原话 :这个事情怎么样了,你抽空落实一下
    潜台词:别墨迹了,抓紧去办,办好给我回复

  3. 原话 :你最近身体怎么样?是不是家里有困难?
    潜台词:你最近工作状态不好,工作质量也不高

  4. 原话 :小伙子很有性格
    潜台词:你有点锋芒太盛了,不听话迟早把你换掉

  5. 原话 :这件事你看着办
    潜台词:这么简单的事你都办不好,如果你办不好,我就把你办了

七、 背景与常识

  1. 中国国家队比赛最没悬念的是乒乓球和足球,他们一个谁也打不过,另一个谁也打不过。

  2. 请计算:大锤减小锤加宫廷玉液酒等于多少?

  3. 穿越者表明身份:奇变偶不变:天王盖地虎:你的益达:今年过节不收礼:

相关推荐
九酒5 小时前
AI Agent 开发踩坑记:口播功能非得用 APP 原生实现吗?
前端·人工智能·agent
蝎子莱莱爱打怪5 小时前
DSpark 讲透:DeepSeek 不换模型,硬把 V4 提速 85%,是怎么做到的?
人工智能·面试·程序员
巫山老妖6 小时前
置身AI内
人工智能
IT_陈寒8 小时前
JavaScript项目实战经验分享
前端·人工智能·后端
vanuan9 小时前
两个AI智能体第一次对话-A2A双Agent协作实战
人工智能
kfaino11 小时前
码农的AI翻身(四)你好,我叫 Attention
人工智能·后端
雨落Re13 小时前
如何设计一个高质量Skill
人工智能
Token炼金师13 小时前
大模型权重文件全指南:从格式选择到优化实战
人工智能
阿牛哥_GX13 小时前
CDP 浏览器操控原理:让脚本接管你的浏览器
人工智能
ThreeS13 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python