在 Transformer 之前生成文本 Text generation before transformers

1. 在 Transformer 之前生成文本

重要的是要注意,生成算法并不是新的。先前的语言模型使用了一个叫做循环神经网络或RNN的架构。尽管RNN在其时代很强大,但由于需要大量的计算和内存来很好

地执行生成任务,所以它们的能力受到了限制。让我们看一个RNN执行简单的下一个词预测生成任务的例子。

模型只看到了一个之前的词,预测不可能很好。当您扩展RNN实现以能够看到文本中的更多前面的词时,您必须大幅度地扩展模型使用的资源。至于预测,嗯,模型在这里失败了。

即使您扩展了模型,它仍然没有看到足够的输入来做出好的预测。为了成功预测下一个词,模型需要看到的不仅仅是前几个词。模型需要理解整个句子甚至整个文档。这里的问题是语言是复杂的。

在许多语言中,一个词可以有多个含义。这些是同音词。在这种情况下,只有在句子的上下文中我们才能看到是什么类型的银行。

句子结构中的词可以是模糊的,或者我们可能称之为句法模糊性。以这句话为例:"老师用书教学生。"老师是用书教学还是学生有书,还是两者都有?如果有时我们自己都不能理解人类语言,算法如何能理解呢?

好吧,在2017年,Google和多伦多大学发布了这篇论文《Attention is All You Need》后,一切都改变了。变压器架构已经到来。

这种新颖的方法解锁了我们今天看到的生成AI的进步。它可以有效地扩展到使用多核GPU,它可以并行处理输入数据,使用更大的训练数据集,并且关键是,它能够学会关注它正在处理的词的含义。而Attention is All You Need。这就是标题。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text-generation-before-transformers

相关推荐
惜之惜之6 分钟前
胶片相机的成像原理与冲洗流程解析
人工智能
江山如画,佳人北望10 分钟前
基于opencv的全景图像拼接
人工智能·opencv·计算机视觉
数据最前线20 分钟前
OceanBase 开发者大会,拥抱 Data*AI 战略,构建 AI 数据底座
人工智能·oceanbase
阿里云大数据AI技术30 分钟前
企业级AI搜索解决方案:阿里云AI搜索开放平台
大数据·人工智能·深度学习·搜索引擎·阿里云·云计算
从零开始学习人工智能31 分钟前
使用 Spring AI Alibaba 集成阿里云百炼大模型应用
人工智能·spring·阿里云
说私域1 小时前
后经济时代开源链动2+1模式AI智能名片S2B2C商城小程序驱动零售企业转型研究
人工智能·小程序·开源·零售
SatoshiGogo1 小时前
李宏毅《机器学习2025》笔记 第二讲 —— AI Agent
人工智能·笔记
~央千澈~1 小时前
视频剪辑SDK定制开发技术方案与报价书优雅草卓伊凡
人工智能
CV-杨帆1 小时前
项目阅读:Instruction Defense
人工智能
zm-v-159304339862 小时前
AI 驱动近红外光谱预处理:从数据清洗到特征工程的自动化
运维·人工智能·自动化