人工智能应用- 语言理解:03. 语言模型

当句子较短时,直接统计句子的概率还比较简单,但随着句子长度增加,词与词之间的组合方式呈指数级增长。例如,若词汇表中有 5000 个词,句子长度为 10,则可能的句子组合数目达到,这是一个无法实际计算的天文数字。

为解决这一问题,研究者提出了N 元文法(N-gram)语言模型。这种模型只考虑一个词在前面N-1 个词后出现的概率,然后将这些概率连乘起来,得到整个句子的概率。例如,二元文法(Bi-gram)语言模型统计一个词后面接另一个词的概率,如P(吗| 可以) 表示"可以"后面接"吗"的概率。如果一个句子中有M 个词,则将这 M 个词的概率相乘即可得到整个句子的概率。图 31.3展示了二元文法语言模型的计算过程。

二元文法语言模型的计算过程

有了这个N 元文法模型,就可以利用它来生成句子。首先随机生成一个词 x 1,然后根据 P (x 2|x 1) 生成下一个词 x2,以此类推,即可生成句子和段落。下面是一段话是利用三元文法生成的一段话:

我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。

可以看到,生成的每句话看起来还是通顺的,但当这些句子放在一起就显得杂乱无章,没有意义。这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。

相关推荐
熊猫钓鱼>_>16 小时前
当“虾”遇上“马”:QClaw 融合 Hermes 背后的智能体进化论
人工智能·ai·腾讯云·agent·openclaw·qclaw·hermes
深念Y16 小时前
Denuvo加密被全面攻破?聊聊D加密原理和这次的破解事件
人工智能·游戏·ai·逆向·虚拟机·虚拟·d加密
KKKlucifer16 小时前
日志审计与行为分析在安全服务中的应用实践
网络·人工智能·安全
SelectDB16 小时前
Doris & SelectDB for AI 实战:从基础 RAG 到知识图谱增强的完整实现
数据库·人工智能·数据分析
Agent产品评测局16 小时前
生产排期与MES/ERP系统打通,实操方法详解:2026企业级智能体与超自动化集成实战指南
运维·人工智能·ai·chatgpt·自动化
GitCode官方16 小时前
一声唤醒 万物响应|AtomGit 首款开源鸿蒙 AI 硬件「小鸿」发布会圆满落幕 定义智能交互新入口
人工智能·开源·harmonyos
互联网志16 小时前
打通转化通道 赋能产业发展——高校科技成果转化的现状与破局
大数据·人工智能·物联网
时序之心16 小时前
ICLR 2026两篇时间序列论文新思路:都用Patch作为建模基础单元
人工智能·iclr·时间序列
天天进步201516 小时前
实时通信的艺术:OpenWork 中 SSE 与事件流驱动的 UI 交互实现
人工智能
AI_paid_community16 小时前
我花了一晚上把 Claude Code 彻底"薅羊毛"了——free-claude-code 项目深度实测
人工智能·claude