规则和传统NLP之困难和挑战

系列文章目录

第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式


规则和传统NLP之困难和挑战

  • 系列文章目录
  • [一、 NLP的困难与挑战](#一、 NLP的困难与挑战)
  • [二、 语言歧义](#二、 语言歧义)
    • [1. 同音词](#1. 同音词)
    • [2. 词性歧义](#2. 词性歧义)
    • [3. 分词导致的歧义](#3. 分词导致的歧义)
    • [4. 语法结构歧义](#4. 语法结构歧义)
    • [5. 语境歧义](#5. 语境歧义)
  • [三、 不同语言结构差异](#三、 不同语言结构差异)
  • 四、未知语言不可预测性
  • [五、 语言表达的复杂性](#五、 语言表达的复杂性)
  • [六、 潜台词](#六、 潜台词)
  • [七、 背景与常识](#七、 背景与常识)

一、 NLP的困难与挑战

二、 语言歧义

1. 同音词

有一次,纪晓岚与和珅一同在朝为官,纪晓岚任侍郎,和珅任尚书。两人在一起喝酒时,和珅指着一只狗问纪晓岚:

和珅(尚书):纪侍郎,纪大人,这是何物?是狼是狗?(侍郎是狗)

纪晓岚(侍郎):和尚书,和大人,这好办。看尾巴呀,下垂是狼,上竖是狗,记住了。(尚书是狗)

2. 词性歧义

动物保护警察("保护"可理解成动词、名词,语义不一样)

3. 分词导致的歧义

例1:自动化研究所取得的成就

  • 理解一:自动化 / 研究 / 所 / 取得 / 的 / 成就
  • 理解二:自动化 / 研究所 / 取得 / 的 / 成就

例2:武汉市长江大桥

  • 分词1:武汉市/长江大桥
  • 分词2:武汉/市长/江大桥

4. 语法结构歧义

  • 喜欢乡下的孩子
  • 关于鲁迅的文章

5. 语境歧义

  1. 你太棒了,你简直是个天才!(真心恭喜)
  2. 你太棒了,你简直是个天才!(阴阳师)

三、 不同语言结构差异

四、未知语言不可预测性

语言在不断演化,每年都有为数不少的新词语、新语料出现,给一些NLP处理任务造成困难。以下列举了几个2024年网络上出现的新词语:

  • city不city:用来形容"洋气不洋气",源于"citywalk"的流行,意味着没有攻略、随机走路的时尚态度。
  • 钝感艺术:一种自嘲的说法,用来形容人"缺心眼",但并非贬义,而是指在某些情况下不敏感、不计较的态度。
  • 边界感:用来描述对"隐私"的尊重和保护意识。
  • 泰裤辣:音译自英文"too cool啦",表示"太酷了"的意思。
  • PPT你:指"画饼",即给你描绘一个美好的未来,但实际行动上却没有任何实质性的进展。
  • 嘴替:网友帮忙说出自己心里话的人或言论。
  • 配享太庙:网络用语中用来夸赞某专家或权威人士说的很对,有很高的赞誉和尊敬之意。

五、 语言表达的复杂性

甲:你这是什么意思?

乙:没什么意思,意思意思。

甲:你这就不够意思了。

乙:小意思,小意思。

甲:你这人真有意思。

乙:其实也没有别的意思。

甲:那我就不好意思了。

六、 潜台词

  1. 原话 :这件事要走流程,我这样也很难办
    潜台词:一点好处都没有,就想空手套白狼

  2. 原话 :这个事情怎么样了,你抽空落实一下
    潜台词:别墨迹了,抓紧去办,办好给我回复

  3. 原话 :你最近身体怎么样?是不是家里有困难?
    潜台词:你最近工作状态不好,工作质量也不高

  4. 原话 :小伙子很有性格
    潜台词:你有点锋芒太盛了,不听话迟早把你换掉

  5. 原话 :这件事你看着办
    潜台词:这么简单的事你都办不好,如果你办不好,我就把你办了

七、 背景与常识

  1. 中国国家队比赛最没悬念的是乒乓球和足球,他们一个谁也打不过,另一个谁也打不过。

  2. 请计算:大锤减小锤加宫廷玉液酒等于多少?

  3. 穿越者表明身份:奇变偶不变:天王盖地虎:你的益达:今年过节不收礼:

相关推荐
林爷万福7 小时前
光谱数据预处理:基线校正、平滑去噪实战
人工智能·算法
继续商行7 小时前
KV Cache内存管理优化:从碎片整理到智能淘汰的显存优化路径
人工智能
IT_陈寒8 小时前
被Vite的动态导入坑了一整天,原来问题出在这
前端·人工智能·后端
wubba lubba dub dub7508 小时前
第四十九周学习周报
人工智能·算法·机器学习
装不满的克莱因瓶8 小时前
学习使用 Python 机器学习工具 sklearn
人工智能·python·学习·机器学习·ai·agent·智能体
AI智图坊8 小时前
AIGC赋能跨境电商:如何利用「图生图」与模型提取,破解POD节日款“卡图案”技术瓶颈?
大数据·人工智能·gpt·ai作画·aigc
触底反弹8 小时前
大模型时代:5 个 Prompt 替代 BERT 训练,搞定 NLP 五大任务
人工智能·node.js·api
vortex58 小时前
AI Skill 设计:网络安全审计中的自主性与规范化博弈
人工智能·安全·web安全
云烟成雨TD8 小时前
Spring AI 1.x 系列【37】RAG 知识库平台案例:知识库管理
java·人工智能·spring
GodGump8 小时前
从生成式 AI 到行动式 AI:下一代人工智能为什么需要“行动能力”
人工智能