在 Transformer 之前生成文本 Text generation before transformers

1. 在 Transformer 之前生成文本

重要的是要注意,生成算法并不是新的。先前的语言模型使用了一个叫做循环神经网络或RNN的架构。尽管RNN在其时代很强大,但由于需要大量的计算和内存来很好

地执行生成任务,所以它们的能力受到了限制。让我们看一个RNN执行简单的下一个词预测生成任务的例子。

模型只看到了一个之前的词,预测不可能很好。当您扩展RNN实现以能够看到文本中的更多前面的词时,您必须大幅度地扩展模型使用的资源。至于预测,嗯,模型在这里失败了。

即使您扩展了模型,它仍然没有看到足够的输入来做出好的预测。为了成功预测下一个词,模型需要看到的不仅仅是前几个词。模型需要理解整个句子甚至整个文档。这里的问题是语言是复杂的。

在许多语言中,一个词可以有多个含义。这些是同音词。在这种情况下,只有在句子的上下文中我们才能看到是什么类型的银行。

句子结构中的词可以是模糊的,或者我们可能称之为句法模糊性。以这句话为例:"老师用书教学生。"老师是用书教学还是学生有书,还是两者都有?如果有时我们自己都不能理解人类语言,算法如何能理解呢?

好吧,在2017年,Google和多伦多大学发布了这篇论文《Attention is All You Need》后,一切都改变了。变压器架构已经到来。

这种新颖的方法解锁了我们今天看到的生成AI的进步。它可以有效地扩展到使用多核GPU,它可以并行处理输入数据,使用更大的训练数据集,并且关键是,它能够学会关注它正在处理的词的含义。而Attention is All You Need。这就是标题。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text-generation-before-transformers

相关推荐
AI机器学习算法2 小时前
深度学习模型演进:6个里程碑式CNN架构
人工智能·深度学习·cnn·大模型·ai学习路线
Ztopcloud极拓云视角2 小时前
从 OpenRouter 数据看中美 AI 调用量反转:统计口径、模型路由与多云应对方案
人工智能·阿里云·大模型·token·中美ai
AI医影跨模态组学2 小时前
如何将深度学习MTSR与膀胱癌ITGB8/TGF-β/WNT机制建立关联,并进一步解释其与患者预后及肿瘤侵袭、免疫抑制的生物学联系
人工智能·深度学习·论文·医学影像
搬砖的前端2 小时前
AI编辑器开源主模型搭配本地模型辅助对标GPT5.2/GPT5.4/Claude4.6(前端开发专属)
人工智能·开源·claude·mcp·trae·qwen3.6·ops4.6
Python私教3 小时前
Hermes Agent 安全加固与生态扩展:2026-04-23 更新解析
人工智能
饼干哥哥3 小时前
Kimi K2.6 干成了Claude Design国产版,一句话生成电影级的动态品牌网站
人工智能
肖有米XTKF86463 小时前
带货者精品优选模式系统的平台解析
人工智能·信息可视化·团队开发·csdn开发云
天天进步20153 小时前
打破沙盒限制:OpenWork 如何通过权限模型实现安全的系统级调用?
人工智能·安全
xcbrand3 小时前
政府事业机构品牌策划公司找哪家
大数据·人工智能·python
骥龙3 小时前
第十篇:合规与未来展望——构建AI智能体安全标准
人工智能·安全