规则和传统NLP之困难和挑战

系列文章目录

第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式


规则和传统NLP之困难和挑战

  • 系列文章目录
  • [一、 NLP的困难与挑战](#一、 NLP的困难与挑战)
  • [二、 语言歧义](#二、 语言歧义)
    • [1. 同音词](#1. 同音词)
    • [2. 词性歧义](#2. 词性歧义)
    • [3. 分词导致的歧义](#3. 分词导致的歧义)
    • [4. 语法结构歧义](#4. 语法结构歧义)
    • [5. 语境歧义](#5. 语境歧义)
  • [三、 不同语言结构差异](#三、 不同语言结构差异)
  • 四、未知语言不可预测性
  • [五、 语言表达的复杂性](#五、 语言表达的复杂性)
  • [六、 潜台词](#六、 潜台词)
  • [七、 背景与常识](#七、 背景与常识)

一、 NLP的困难与挑战

二、 语言歧义

1. 同音词

有一次,纪晓岚与和珅一同在朝为官,纪晓岚任侍郎,和珅任尚书。两人在一起喝酒时,和珅指着一只狗问纪晓岚:

和珅(尚书):纪侍郎,纪大人,这是何物?是狼是狗?(侍郎是狗)

纪晓岚(侍郎):和尚书,和大人,这好办。看尾巴呀,下垂是狼,上竖是狗,记住了。(尚书是狗)

2. 词性歧义

动物保护警察("保护"可理解成动词、名词,语义不一样)

3. 分词导致的歧义

例1:自动化研究所取得的成就

  • 理解一:自动化 / 研究 / 所 / 取得 / 的 / 成就
  • 理解二:自动化 / 研究所 / 取得 / 的 / 成就

例2:武汉市长江大桥

  • 分词1:武汉市/长江大桥
  • 分词2:武汉/市长/江大桥

4. 语法结构歧义

  • 喜欢乡下的孩子
  • 关于鲁迅的文章

5. 语境歧义

  1. 你太棒了,你简直是个天才!(真心恭喜)
  2. 你太棒了,你简直是个天才!(阴阳师)

三、 不同语言结构差异

四、未知语言不可预测性

语言在不断演化,每年都有为数不少的新词语、新语料出现,给一些NLP处理任务造成困难。以下列举了几个2024年网络上出现的新词语:

  • city不city:用来形容"洋气不洋气",源于"citywalk"的流行,意味着没有攻略、随机走路的时尚态度。
  • 钝感艺术:一种自嘲的说法,用来形容人"缺心眼",但并非贬义,而是指在某些情况下不敏感、不计较的态度。
  • 边界感:用来描述对"隐私"的尊重和保护意识。
  • 泰裤辣:音译自英文"too cool啦",表示"太酷了"的意思。
  • PPT你:指"画饼",即给你描绘一个美好的未来,但实际行动上却没有任何实质性的进展。
  • 嘴替:网友帮忙说出自己心里话的人或言论。
  • 配享太庙:网络用语中用来夸赞某专家或权威人士说的很对,有很高的赞誉和尊敬之意。

五、 语言表达的复杂性

甲:你这是什么意思?

乙:没什么意思,意思意思。

甲:你这就不够意思了。

乙:小意思,小意思。

甲:你这人真有意思。

乙:其实也没有别的意思。

甲:那我就不好意思了。

六、 潜台词

  1. 原话 :这件事要走流程,我这样也很难办
    潜台词:一点好处都没有,就想空手套白狼

  2. 原话 :这个事情怎么样了,你抽空落实一下
    潜台词:别墨迹了,抓紧去办,办好给我回复

  3. 原话 :你最近身体怎么样?是不是家里有困难?
    潜台词:你最近工作状态不好,工作质量也不高

  4. 原话 :小伙子很有性格
    潜台词:你有点锋芒太盛了,不听话迟早把你换掉

  5. 原话 :这件事你看着办
    潜台词:这么简单的事你都办不好,如果你办不好,我就把你办了

七、 背景与常识

  1. 中国国家队比赛最没悬念的是乒乓球和足球,他们一个谁也打不过,另一个谁也打不过。

  2. 请计算:大锤减小锤加宫廷玉液酒等于多少?

  3. 穿越者表明身份:奇变偶不变:天王盖地虎:你的益达:今年过节不收礼:

相关推荐
南宫萧幕5 小时前
基于 Simulink 与 Python 联合仿真的 eVTOL 强化学习全链路实战
开发语言·人工智能·python·算法·机器学习·控制
HDD9855 小时前
2026年录音转文字工具实测:免费且好用的选择有哪些?
人工智能·语音识别·效率工具·语音转文字
跨境卫士苏苏5 小时前
经营变量持续增加之下跨境团队如何减少月度计划偏差
大数据·人工智能·内容运营·亚马逊·跨境
m0_466525295 小时前
东软添翼医疗大模型领跑 医疗AI进入“可信时代”
人工智能
美团技术团队5 小时前
美团 LongCat 开源 General 365:树立推理评测新标尺
人工智能
eastyuxiao5 小时前
能源电力领域的数字孪生应用场景有哪些
大数据·人工智能·智慧城市·能源·数字孪生
张二娃同学5 小时前
第08篇_RNN_LSTM_GRU序列模型
人工智能·python·rnn·深度学习·神经网络·gru·lstm
财经资讯数据_灵砚智能5 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月13日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理
我的世界洛天依6 小时前
胡桃讲编程|公益开源模型「初音未来」R1 声库(RVCv2 第一代)开发日志:低配 1050Ti 也能训的经典国语声线
人工智能
qq_411262426 小时前
四博AI睡眠眼罩方案:白噪音、音乐疗愈、AI情绪陪伴,把智能音箱做成贴身睡眠助手
人工智能·智能音箱