人工智能应用- 语言理解：02. 语言模型

陈天伟教授2026-02-05 8:45

后来，研究者发现词与词之间的关联更能反映语言的规律。一句话是否合理，往往取决于其中的词语搭配是否常见。例如，"我看电视"是合理的，因为"我"和"看"常常搭配在一起，"看"和"电视"也是自然的组合。而类似于"我吃电视"或"我打电视"这样的表达则不合常理，因为这些搭配在实际语言中几乎不存在。

"常见的搭配就是合理的"是人类语言的一条重要原则，也是人类语言最大的秘密。那么，如何让机器判断一句话是否常见呢？一种常用的方法是统计句子在大规模语料库中出现的频率，称为句子X 的概率，记为 P(X)。概率越高，表示该句子越常见，也越合理。

图给出了一个语料库中统计由"我""、看""、吃""、打""、电视"和"电话"六个词组成句子的概率表。可以看出，越常见的句子概率越高，而不合理的句子概率则较低。我们通常将P(X) 称为语言模型。语言模型本质上通过概率统计来刻画语言的规律。