在 Transformer 之前生成文本 Text generation before transformers

1. 在 Transformer 之前生成文本

重要的是要注意,生成算法并不是新的。先前的语言模型使用了一个叫做循环神经网络或RNN的架构。尽管RNN在其时代很强大,但由于需要大量的计算和内存来很好

地执行生成任务,所以它们的能力受到了限制。让我们看一个RNN执行简单的下一个词预测生成任务的例子。

模型只看到了一个之前的词,预测不可能很好。当您扩展RNN实现以能够看到文本中的更多前面的词时,您必须大幅度地扩展模型使用的资源。至于预测,嗯,模型在这里失败了。

即使您扩展了模型,它仍然没有看到足够的输入来做出好的预测。为了成功预测下一个词,模型需要看到的不仅仅是前几个词。模型需要理解整个句子甚至整个文档。这里的问题是语言是复杂的。

在许多语言中,一个词可以有多个含义。这些是同音词。在这种情况下,只有在句子的上下文中我们才能看到是什么类型的银行。

句子结构中的词可以是模糊的,或者我们可能称之为句法模糊性。以这句话为例:"老师用书教学生。"老师是用书教学还是学生有书,还是两者都有?如果有时我们自己都不能理解人类语言,算法如何能理解呢?

好吧,在2017年,Google和多伦多大学发布了这篇论文《Attention is All You Need》后,一切都改变了。变压器架构已经到来。

这种新颖的方法解锁了我们今天看到的生成AI的进步。它可以有效地扩展到使用多核GPU,它可以并行处理输入数据,使用更大的训练数据集,并且关键是,它能够学会关注它正在处理的词的含义。而Attention is All You Need。这就是标题。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text-generation-before-transformers

相关推荐
li-xun1 分钟前
2026年6月14日博客精选
人工智能·ai
DogDaoDao11 分钟前
【GitHub】 Headroom 深度解析:AI Agent 上下文压缩层的完整技术拆解
人工智能·深度学习·程序员·github·ai agent·智能体·agent skill
挖坑的张师傅18 分钟前
方便 Mac 本机运行 e2b 的沙箱方案 e2b-local
人工智能·后端
生成论实验室24 分钟前
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路
人工智能·语言模型·机器人·自动驾驶·安全架构
浦信仿真大讲堂24 分钟前
达索系统SIMULIA Abaqus 2026接触和约束的增强新功能介绍
人工智能·python·算法·仿真软件·达索软件
文艺倾年30 分钟前
【强化学习】MDP、贝尔曼方程与CartPole 编程,20W字总结(二)
人工智能·软件工程·强化学习
卡梅德生物科技小能手35 分钟前
卡美德生物科普CD136(RON受体):从基础特性到实验应用
经验分享·深度学习·生活
ttt606_37 分钟前
门店业绩上报系统功能拆解:门店业绩上报如何提高数据精确度与时效性?
大数据·人工智能
phltxy38 分钟前
Spring AI 可观测性与 Zipkin 实战
java·人工智能·spring
ACP广源盛1392462567342 分钟前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark