数学与自然语言处理——统计语言模型

什么是自然语言处理 -- NLP

每种动物都有自己的语言,机器也是!

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。

自然语言就是大家平时在生活中常用的表达方式,大家平时说的"讲人话"就是这个意思。

自然语言:我背有点驼

非自然语言:我的背呈弯曲状

而自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型,即统计语言模型(Statistical Language Model)。

如何使用统计语言模型来描述语言规律

在最初统计模型语言产生的初衷是为了解决语音识别 问题。假定S表示某一个有意义的句子,由一连串特定顺序排列的词 组成,其中n是句子的长度。

利用条件概率的公式,我们可以得到

从计算上来看,词的概率计算变得越来越麻烦。如果我们假设,任意一个词出现的概率只与它前面的词有关,那么

其对应的统计语言模型为二元模型(Bigram Model)。我们知道P(S)的计算方式之后,接下来如何估计条件概率 呢,根据定义,我们可以得到

假设文本中的每个词和前面个词有关,而与更前面的词无关,因此

这种假设被称为N-1阶马尔可夫假设,对应的语言模型称为N元模型。当N=2时,即为二元模型;N=1时,即为一元模型,是一个上下文无关的模型。实际应用中最常用的为N=3的三元模型。

统计语言模型的工程应用

使用语言模型需要知道模型中所有的条件概率,即模型的参数,而得到这些参数的过程称之为模型的训练。对于二元模型来说,我们至于要知道两个语料中出现的次数,之所以可以用采样数据进行预测,是由于大数定理的支持。然而,在估计语言模型的概率时,这个方法时不可行的(数量很小的时候,随机性很大)。那么,我们如何正确地训练一个语言模型呢?

一个办法是增加数据量,即便如此,仍会遇到零概率或统计量不足的问题。因此,如果用直接的比值计算概率,大部分的条件概率仍为零,这种模型我们称作"不平滑"。

另一个办法是"古德-图灵估计(Good-Turing Estimate)",即对于没有看见的事件,我们不能认为它发生的概率为0,因此我们从概率的总量中,分配一个很小的比例给这些没有看见的事件。这样看见的事件的概率总和就要小于1了,所以我们需要将所有看见的事件概率调小一点,至于小多少,需要根据"越是不可信的统计折扣越多"的方法进行。

相关推荐
前端摸鱼匠12 小时前
【AI大模型春招面试题12】Scaling Laws揭示了模型性能、数据量、计算量之间的什么关系?
人工智能·ai·语言模型·面试·大模型
yuhulkjv33512 小时前
deepseek怎么复制表格
人工智能·ai·chatgpt·豆包·deepseek·ai导出鸭
小陈工13 小时前
2026年3月26日技术资讯洞察:WebAssembly崛起、AI代码质量危机与开源安全新挑战
人工智能·python·安全·架构·开源·fastapi·wasm
云飞云共享云桌面13 小时前
非标自动化研发成本高?云飞云共享云桌面:1台主机=10台工作站,年省数十万。
大数据·运维·服务器·人工智能·自动化·云计算·电脑
㱘郳13 小时前
大语言模型开发与应用V5.0
人工智能·语言模型·自然语言处理
2301_7665586513 小时前
深度解析:矩阵跃动小陌GEO语义场建模原理,筑牢企业AI搜索占位技术壁垒
人工智能·线性代数·矩阵
Lab_AI13 小时前
AI for Science应用:深度学习助力新型靶蛋白的药物从头设计(AIDD助力药物研发)
人工智能·深度学习·aidd·药物发现·新靶点药物设计
AI自动化工坊13 小时前
GitAgent实战解析:用Docker思想解决AI Agent框架碎片化问题,降低80%迁移成本
人工智能·docker·ai·容器·开源
紧固视界13 小时前
3C电子自动化装配加速,微型紧固件需求持续增长_2026上海紧固件展 华网上海展
人工智能·自动化·紧固件·上海紧固件展·紧固件展
田井中律.14 小时前
知识图谱实战(知识查询语言、NER)【第三章】
人工智能·知识图谱