码农的AI翻身(三)你好,我叫 Embedding

AI翻身(三)

你好,我叫 Embedding------AI终于学会了理解,而不是死记硬背


大家好。

我叫 Embedding

有人叫我:

向量。

有人叫我:

词向量。

还有人喜欢给我起一个特别高大上的名字:

语义空间映射。

听起来很厉害。

其实。

我就是一个翻译。

不过。

我翻译的不是中文和英文。

我翻译的是:

文字和数学。


我第一次见到老板的时候

老板(Transformer)对我说:

"以后,人类说什么,你负责翻译。"

我愣住了。

"我不会中文啊。"

老板笑了。

"没关系。"

"我也不会。"


AI其实是个文盲

很多人以为。

ChatGPT每天都在看文字。

其实。

它从来没有见过一个字。

它眼里只有数字。

比如。

"猫"

在AI眼里。

可能是:

diff 复制代码
0.183
-0.924
0.772
...
1536个数字

"小猫"

又变成另一串数字。

"Java"

也是。

"Spring Boot"

也是。

整个互联网。

最后都会变成:

一串一串数字。

老板最喜欢数字。

因为。

GPU只会算数字。

不会认字。


我为什么会出生?

早些年。

AI特别笨。

有人问:

北京是中国的首都。

再问:

中国首都是哪里?

AI居然不知道。

因为。

两句话完全不同。

后来。

程序员终于发现。

AI不是不会回答。

它只是:

不会理解意思。

于是。

他们把我造出来了。

我的工作只有一句话:

意思一样,就站近一点。


我的世界,没有文字

假设。

这里有四个词。

复制代码
猫

小猫

狗

Java

以前。

AI看到的是:

复制代码
猫 ≠ 小猫

小猫 ≠ 狗

狗 ≠ Java

全部不同。

没有任何关系。

我来了以后。

事情变了。

我把它们放进一个巨大的空间。

markdown 复制代码
               狗

          小猫

      猫



                           Java

突然。

老板发现:

猫和小猫离得很近。

狗也不远。

Java跑到了另外一个世界。

原来。

距离。

就是意思。


我的世界有1536个方向

你看到的是二维。

实际上。

我的世界。

有1536维。

3072维。

甚至更高。

每一个方向。

都代表一种特征。

例如:

可能有:

复制代码
动物程度

编程程度

快乐程度

颜色

动作

抽象程度

当然。

没有任何人知道。

第527维到底是什么。

连老板自己都不知道。

但是。

训练结束以后。

这些数字。

居然自己排列出了规律。

连创造我的工程师。

都觉得不可思议。


我最大的本事

有一天。

有人问AI:

苹果手机多少钱?

老板开始思考。

突然。

苹果旁边出现了很多朋友。

复制代码
iPhone

MacBook

Apple

Tim Cook

老板笑了。

"哦。"

"这次不是水果。"

第二天。

又有人问:

苹果什么时候成熟?

这一次。

我立刻把它送到了:

复制代码
香蕉

西瓜

葡萄

水果

老板又笑了。

"懂了。"

同一个苹果。

因为邻居不同。

意思完全变了。

我不会思考。

但是。

我会找邻居。


后来,我认识了一位朋友

他的名字。

叫:

Vector Database。

我们第一次见面。

是在一家互联网公司。

他说:

"以后,你负责生成坐标。"

"我负责保存坐标。"

我说:

"保存那么多数字干什么?"

他说:

"总有一天,会有人回来找。"

后来。

每一篇文档、每一段代码、每一个PDF、每一个网页....

都变成了我的样子。

然后。

交给数据库保存。

几年以后。

有人问:

公司请假制度是什么?

AI原本不知道。

于是。

数据库开始找。

距离最近的几个Embedding。

马上找到:

《员工手册》

《HR制度》

《请假流程》

老板看了一眼。

瞬间回答。

整个过程。

不到一秒。


可是......

我一直有个遗憾。

我能把文字变成数字。

却不知道数字之间应该如何交流。

我能告诉老板:

"苹果"在哪里。

"手机"在哪里。

"发布"在哪里。

但我不知道:

在"苹果发布了新手机"这句话里。

苹果应该和手机靠得更近。

还是和水果靠得更近。

直到有一天。

Attention 走了进来。

他说:

"兄弟,辛苦了。"

"你负责把每个词变成坐标。"

"接下来,我来决定------"

"这一刻,谁应该看谁。"


下一集预告

《AI翻身(四)》

你好,我叫 Attention------AI第一次学会了看重点

以前,AI看见了每一个词。

后来,AI终于知道:

哪些词,才值得认真看。

相关推荐
葫芦和十三2 小时前
图解 MongoDB 18|复制集拓扑:Primary、Secondary 和 Arbiter 的分工
后端·mongodb·面试
爱勇宝2 小时前
大多数人不是在使用 AI 赚钱,而是在帮 AI 公司赚钱
前端·后端·程序员
_山海3 小时前
OpenSpec-基于SDD规格驱动开发
ai编程·vibecoding
程序员cxuan5 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
IT_陈寒7 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
葫芦和十三8 小时前
图解 MongoDB 15|journal 与持久化:写入怎么不丢,崩溃怎么恢复
后端·mongodb·面试
葫芦和十三8 小时前
图解 MongoDB 16|压缩:snappy、zstd 和 zlib 的取舍
后端·mongodb·面试
苍何8 小时前
终于找到免费开源TTS模型,克隆声音不要钱,本地电脑也能跑
后端
用户593608741408 小时前
Spring AI 集成 DeepSeek 原生供应商并实现think模式
后端