后来,研究者发现词与词之间的关联更能反映语言的规律。一句话是否合理,往往取决于其中的词语搭配是否常见。例如,"我看电视"是合理的,因为"我"和"看"常常搭配在一起,"看"和"电视"也是自然的组合。而类似于"我吃电视"或"我打电视"这样的表达则不合常理,因为这些搭配在实际语言中几乎不存在。
"常见的搭配就是合理的"是人类语言的一条重要原则,也是人类语言最大的秘密。那么,如何让机器判断一句话是否常见呢?一种常用的方法是统计句子在大规模语料库中出现的频率,称为句子X 的概率,记为 P(X)。概率越高,表示该句子越常见,也越合理。
图给出了一个语料库中统计由"我""、看""、吃""、打""、电视"和"电话"六个词组成句子的概率表。可以看出,越常见的句子概率越高,而不合理的句子概率则较低。我们通常将P(X) 称为语言模型。语言模型本质上通过概率统计来刻画语言的规律。
