人工智能应用- 语言理解:03. 语言模型

当句子较短时,直接统计句子的概率还比较简单,但随着句子长度增加,词与词之间的组合方式呈指数级增长。例如,若词汇表中有 5000 个词,句子长度为 10,则可能的句子组合数目达到,这是一个无法实际计算的天文数字。

为解决这一问题,研究者提出了N 元文法(N-gram)语言模型。这种模型只考虑一个词在前面N-1 个词后出现的概率,然后将这些概率连乘起来,得到整个句子的概率。例如,二元文法(Bi-gram)语言模型统计一个词后面接另一个词的概率,如P(吗| 可以) 表示"可以"后面接"吗"的概率。如果一个句子中有M 个词,则将这 M 个词的概率相乘即可得到整个句子的概率。图 31.3展示了二元文法语言模型的计算过程。

二元文法语言模型的计算过程

有了这个N 元文法模型,就可以利用它来生成句子。首先随机生成一个词 x 1,然后根据 P (x 2|x 1) 生成下一个词 x2,以此类推,即可生成句子和段落。下面是一段话是利用三元文法生成的一段话:

我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。

可以看到,生成的每句话看起来还是通顺的,但当这些句子放在一起就显得杂乱无章,没有意义。这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。

相关推荐
阿杰学AI2 小时前
AI核心知识84——大语言模型之 AI Constitution(简洁且通俗易懂版)
人工智能·深度学习·语言模型·自然语言处理·ai伦理·ai宪法·ai constitution
格林威2 小时前
Baumer相机轴承滚珠缺失检测:用于精密装配验证的 6 个核心算法,附 OpenCV+Halcon 实战代码!
人工智能·opencv·算法·计算机视觉·视觉检测·工业相机·堡盟相机
阿杰学AI2 小时前
AI核心知识83——大语言模型之 AI伦理审查员(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·安全性测试·ai伦理审查员
User_芊芊君子2 小时前
2026 AI Agent 风口必看|四大技术变革+多Agent实战
人工智能·microsoft·ai·ai agent
陈天伟教授2 小时前
人工智能应用- 语言理解:02. 语言模型
人工智能·深度学习·语言模型·自然语言处理·语音识别
方见华Richard2 小时前
世毫九实验室RAE递归对抗引擎:技术与原理全解
人工智能·经验分享·交互·原型模式·空间计算
开开心心_Every2 小时前
音频视频转文字工具,离线语音识别免费
人工智能·游戏·微信·pdf·excel·语音识别·memcache
Orange_sparkle2 小时前
dify的web页面如何传入user用户信息进行对话,而不是uuid
前端·人工智能