AI翻身(三)
你好,我叫 Embedding------AI终于学会了理解,而不是死记硬背

大家好。
我叫 Embedding。
有人叫我:
向量。
有人叫我:
词向量。
还有人喜欢给我起一个特别高大上的名字:
语义空间映射。
听起来很厉害。
其实。
我就是一个翻译。
不过。
我翻译的不是中文和英文。
我翻译的是:
文字和数学。
我第一次见到老板的时候
老板(Transformer)对我说:
"以后,人类说什么,你负责翻译。"
我愣住了。
"我不会中文啊。"
老板笑了。
"没关系。"
"我也不会。"
AI其实是个文盲
很多人以为。
ChatGPT每天都在看文字。
其实。
它从来没有见过一个字。
它眼里只有数字。
比如。
"猫"
在AI眼里。
可能是:
diff
0.183
-0.924
0.772
...
1536个数字
"小猫"
又变成另一串数字。
"Java"
也是。
"Spring Boot"
也是。
整个互联网。
最后都会变成:
一串一串数字。
老板最喜欢数字。
因为。
GPU只会算数字。
不会认字。
我为什么会出生?
早些年。
AI特别笨。
有人问:
北京是中国的首都。
再问:
中国首都是哪里?
AI居然不知道。
因为。
两句话完全不同。
后来。
程序员终于发现。
AI不是不会回答。
它只是:
不会理解意思。
于是。
他们把我造出来了。
我的工作只有一句话:
意思一样,就站近一点。
我的世界,没有文字
假设。
这里有四个词。
猫
小猫
狗
Java
以前。
AI看到的是:
猫 ≠ 小猫
小猫 ≠ 狗
狗 ≠ Java
全部不同。
没有任何关系。
我来了以后。
事情变了。
我把它们放进一个巨大的空间。
markdown
狗
小猫
猫
Java
突然。
老板发现:
猫和小猫离得很近。
狗也不远。
Java跑到了另外一个世界。
原来。
距离。
就是意思。
我的世界有1536个方向
你看到的是二维。
实际上。
我的世界。
有1536维。
3072维。
甚至更高。
每一个方向。
都代表一种特征。
例如:
可能有:
动物程度
编程程度
快乐程度
颜色
动作
抽象程度
当然。
没有任何人知道。
第527维到底是什么。
连老板自己都不知道。
但是。
训练结束以后。
这些数字。
居然自己排列出了规律。
连创造我的工程师。
都觉得不可思议。
我最大的本事
有一天。
有人问AI:
苹果手机多少钱?
老板开始思考。
突然。
苹果旁边出现了很多朋友。
iPhone
MacBook
Apple
Tim Cook
老板笑了。
"哦。"
"这次不是水果。"
第二天。
又有人问:
苹果什么时候成熟?
这一次。
我立刻把它送到了:
香蕉
西瓜
葡萄
水果
老板又笑了。
"懂了。"
同一个苹果。
因为邻居不同。
意思完全变了。
我不会思考。
但是。
我会找邻居。
后来,我认识了一位朋友
他的名字。
叫:
Vector Database。
我们第一次见面。
是在一家互联网公司。
他说:
"以后,你负责生成坐标。"
"我负责保存坐标。"
我说:
"保存那么多数字干什么?"
他说:
"总有一天,会有人回来找。"
后来。
每一篇文档、每一段代码、每一个PDF、每一个网页....
都变成了我的样子。
然后。
交给数据库保存。
几年以后。
有人问:
公司请假制度是什么?
AI原本不知道。
于是。
数据库开始找。
距离最近的几个Embedding。
马上找到:
《员工手册》
《HR制度》
《请假流程》
老板看了一眼。
瞬间回答。
整个过程。
不到一秒。
可是......
我一直有个遗憾。
我能把文字变成数字。
却不知道数字之间应该如何交流。
我能告诉老板:
"苹果"在哪里。
"手机"在哪里。
"发布"在哪里。
但我不知道:
在"苹果发布了新手机"这句话里。
苹果应该和手机靠得更近。
还是和水果靠得更近。
直到有一天。
Attention 走了进来。
他说:
"兄弟,辛苦了。"
"你负责把每个词变成坐标。"
"接下来,我来决定------"
"这一刻,谁应该看谁。"
下一集预告
《AI翻身(四)》
你好,我叫 Attention------AI第一次学会了看重点
以前,AI看见了每一个词。
后来,AI终于知道:
哪些词,才值得认真看。