【Python机器学习】NLP概述——词序和语法

词的顺序很重要,那些在词序列(如句子)中控制词序的规则被称为语言的语法(也被称为文法)。这是之前的词袋或词向量例子中所丢弃的信息。在大多数简短的短语甚至许多完整的句子中,上述词向量近似方法都可以奏效。如果只是想对一个短句的一般意义和情感进行编码的话,那么词序并不十分重要。看一下一个短句的所有词序结果:

python 复制代码
from itertools import permutations

#原句:Good morning Tom
print(list(" ".join(combo) for combo in permutations("Good morning Tim!".split(),3)))

可以看到,3个单词就可以组成6种不同顺序的句子。

现在,如果试图孤立的解释这些字符串中的每一个,那么可能会得出轮,即这些字符串可能都有相似的意图或含义。

我们再用一个更长、更复杂的短语来尝试一下,这是一条逻辑语句,其中词的顺序非常重要:

python 复制代码
s="""
Find textbooks with titles containing 'NLP',
or 'natural' and 'language', or
'computational' and 'linguistics'.
"""
print(len(s.split()))
print(np.arange(1,12+1).prod())

可以看到,当有14个单词,不同的排列方式会有479001600种。很明显,词序所包含的逻辑对任何希望正确回复的机器来说都很重要。尽管普通的问候语通常不会因为词袋处理而造成混淆,但如果把更复杂的语句放入词袋,就会丢失大部分意思。就像自然语言查询一样,词袋并不是处理数据库查询的最佳方式。

无论语句是用形式化的编程语言(比如SQL)编写的,还是用非形式化的自然语言(如英文)编写的,当语句要表达事物之间的逻辑关系时,词序和语法都非常重要。这就是计算机语言依赖严格的语法和句法规则分析器的原因。幸运的是,自然语言句法树分析器取得了一些最新进展,使得从自然语言中提取出语法和逻辑关系变得可能,并且可以达到显著的准确率(90%以上)。

就像上面有关的问候语的case一样,即使一条语句的逻辑解释并不依赖词序,有时关注词序也可以得到一些十分微妙的相关意义的暗示,这些意义可以辅助更深层次的回复。

相关推荐
码农三叔3 分钟前
《卷2:人形机器人的环境感知与多模态融合》
人工智能·嵌入式硬件·算法·机器人·人形机器人
MaoziShan15 分钟前
CMU Subword Modeling | 02 Signs, Minimal Signs, and Compositionality
人工智能·自然语言处理
烁烁闪闪烁烁17 分钟前
【weelinking系列Claude教程】 04 - Claude Code 安装与配置
人工智能·chatgpt·ai编程·claude·cursor·claude code·opencode
wwj202417 分钟前
红海云数字化如何赋能“十五五”人才规划高效落地
大数据·人工智能
福大大架构师每日一题27 分钟前
2026-01-15:下一个特殊回文数。用go语言,给定一个整数 n,求出一个比 n 更大的最小整数,该整数需要满足两条规则: 1. 它的十进制表示从左到右与从右到左完全一致(即读起来是对称的)。 2
python·算法·golang
老金带你玩AI31 分钟前
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
人工智能
TYFHVB1232 分钟前
2026工业级CRM系统选型攻略:6款主流产品深度评测与场景适配剖析
大数据·人工智能
独自归家的兔35 分钟前
阿里 Qwen-Image-2.0 深度评测:中文 AI 绘画的新标杆
人工智能
AI智能观察36 分钟前
星海智能体重磅发布:TIMUS.AI 打造 AI 时代企业对客智能体平台
人工智能·数字人·智慧展厅·智能体·数字展厅·智慧营销
相思半38 分钟前
告别聊天机器人!2026 智能体元年:Claude 4.6 vs GPT-5.3 vs OpenClaw 全方位对比
人工智能·gpt·深度学习·claude·codex·智能体·seedance