码农的AI翻身(四)你好,我叫 Attention

你好,我叫 Attention------老板,其实我一直在偷听


大家好。

我叫 Attention

有人叫我:注意力机制。

还有人喜欢叫我: Self-Attention。

第一次听见这个名字的时候。

很多人都会点点头。

"嗯。"

"懂。"

其实。

一点都没懂。因为...

我既不是注意力。

也不会注意。

我真正的工作只有一句话:

看看谁最重要。


我第一天上班

那天。

Embedding把一群Token送了过来。

他说:

"老板。"

"这些词,我已经翻译好了。"

老板点点头。

然后转身看向我。

"接下来。"

"交给你。"

我愣住了。

"我干什么?"

老板说:

"看看。"

"他们谁和谁关系最好。"


我最喜欢聊天

别人都觉得。

一句话。

就是一排文字。

可是。

我不这么看。

例如。

人类说:

我昨天去银行取钱。

我立刻跑过去。

拍拍"银行"。

问:

"你认识谁?"

银行说:

"我认识昨天。"

我摇摇头。

"再想想。"

银行又说:

"我认识取钱。"

我眼睛一亮。

"对!"

于是。

我给"取钱"打了95分。

给"昨天"打了10分。

给"我"打了5分。

老板看了一眼。

立刻明白。

这里的银行。

不是河边。


可是......

第二天。

又来了一个句子。

我昨天坐在银行边钓鱼。

我又跑去问。

"银行。"

"这次认识谁?"

银行说:

"钓鱼。"

我说:

"还有呢?"

银行说:

"河边。"

老板笑了。

"懂了。"

同样一个银行。

因为朋友不同。

意思完全变了。


我的工作像极了班主任

每来一句话。

我都要做同一件事情。

挨个问。

复制代码
你认识他吗?

认识。

打几分?

90分。

为什么?

因为他经常一起出现。

再问下一个。

再下一个。

一句二十个Token。

我要问四百次。

一句一百个Token。

我要问一万次。

老板一点都不心疼我。

他说:

"全部问完。"


我为什么这么累?

有一天。

新来的Token问我。

"大哥。"

"为什么一句话。"

"每个人都要互相聊天?"

我叹了口气。

拿起纸。

画了一个表。

复制代码
我     爱    Java

我

爱

Java

他说:

"这是什么?"

我说:

"聊天记录。"

他说:

"只有三个人。"

"怎么九个格子?"

我笑了。

"因为。"

"每个人都要看看别人。"

后来。

一句话。

变成了一千个Token。

我开始怀疑人生。

因为。

我要比较:

一百万次。


老板为什么喜欢我?

很多人问。

以前不是有RNN吗?

为什么老板(Transformer)非要用我?

原因很简单。

RNN像听课。

老师讲一句。

记一句。

讲下一句。

再记一句。

听到最后。

前面早忘了。

而我不一样。

无论一句话有多长。

我都能:

同时看看所有人。

老板说:

"这就叫。"

全局理解。


我其实特别八卦

别人聊天。

我是最兴奋的。

例如:

张三告诉李四,他今天中奖了。

我立刻开始分析。

"他。"

到底是谁?

张三?

李四?

我开始四处打听。

谁离得近?

谁最合理?

谁最符合上下文?

最后。

我告诉老板:

"我觉得。"

"这里的他。"

"应该是张三。"

老板点点头。

回答正确。


后来,我开始分身

可是。

老板越来越贪心。

他说:

"一个Attention不够。"

"你只会关注一种关系。"

于是。

我被分成了:

八个。

十六个。

三十二个。

每一个我。

都关注不同的事情。

有的人。

负责语法。

有的人。

负责时间。

有的人。

负责人物。

有的人。

负责因果。

最后。

老板把所有人的结果。

拼在一起。

他说:

"这就是。"

Multi-Head Attention。

我突然发现。

我不是变聪明了。

我是:

学会团队合作了。


我的三个小本子

每天上班。

我都会带三个本子。

第一个。

写着:

Q。

Question。

我想知道什么?

第二个。

写着:

K。

Key。

别人有什么信息?

第三个。

写着:

V。

Value。

真正有用的内容是什么?

每天。

我拿着Q。

去问所有K。

看看谁最重要。

最后。

把对应的V带回来。

老板看完。

开始思考。

后来。

程序员把这一套流程。

画成了无数公式。

其实。

我每天干的。

就是:

拿着问题。

到处找答案。


可是......

后来。

老板越来越大。

几十层。

上百层。

每一层。

都有很多个我。

我每天都在问。

每天都在比较。

每天都在计算。

GPU开始发烫。

显存越来越满。

程序员的钱包。

越来越瘪。

老板终于意识到。

真正吃资源的。

不是Token。

不是Embedding。

而是:

我。

于是。

整个AI世界。

开始寻找一种新的建筑。

一种能够容纳几百亿参数。

几万Token。

还能让我继续工作的地方。

那一天。

一个新的老板来了。

他的名字。

叫:

Transformer。


下一集预告

AI翻身(五)

你好,我叫 Transformer------其实,我不是AI,我只是一个流水线工厂

"很多人以为我是一个模型。

其实。

我更像一家工厂。

Token、Embedding、Attention......

所有人。

都在我这里上班。"

相关推荐
lwx572801 小时前
探秘InnoDB:搞懂它的内存、线程、磁盘与日志刷盘策略
java·后端
云技纵横3 小时前
Spring Boot Actuator 被打穿:线上开了这些端点,等于裸奔
后端
Flynt3 小时前
从Spring Boot 4.0升到4.1,我在Maven和gRPC上栽了跟头
java·spring boot·后端
雨落Re3 小时前
如何设计一个高质量Skill
人工智能
Token炼金师4 小时前
大模型权重文件全指南:从格式选择到优化实战
人工智能
阿牛哥_GX4 小时前
CDP 浏览器操控原理:让脚本接管你的浏览器
人工智能
ThreeS4 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
江华森4 小时前
Django 6.0 从入门到实战教程(上机实操版)
后端
米小虾5 小时前
Loop Engineering —— 循环的设计与自主执行
人工智能·agent