【StableDiffusion】Embedding 底层原理,Prompt Embedding,嵌入向量

Embedding 是什么?

Embedding 是将自然语言词汇,映射为 固定长度 的词向量 的技术

· 说到这里,需要介绍一下 One-Hot 编码 是什么。

· One-Hot 编码 使用了众多 5000 长度的1维矩阵,每个矩阵代表一个词语。

· 这有坏处,它不仅计算量更大,而且,它是 不可移植的,因为每个词汇表中,每个 One-Hot 矩阵对应的 prompt 都不同。

· Embedding 能够将 One-Hot 编码的高维稀疏向量(矩阵) 转化为 低维连续的向量(矩阵),请看下面的例子

来看看,降维算法能够将这些被 Embedding 转化了的向量在 2维 坐标系上展现成什么样:

很明显,意思越是不相同的词语,他们的向量距离在二维平面上也相距越远

越是意思相近的词语(cat,猫;kitten,小猫),它们的向量在二维平面上的距离越近

而且,有语义关联的一些词语,它们的向量也是有特殊的数学关系的:

Embedding 将 text → vector 的具体过程

1.首先对句子进行处理,将句子切成单独的词语

2.被切的词语以 One-Hot 的编码格式存储

3.让代表你的词语的 One-Hot 编码的矩阵 和 嵌入矩阵(图中的矩阵E) 相乘,得到这句话的嵌入向量。

请注意,"嵌入矩阵"是提前被训练好的,也就是 Embedding 处理器 的本体。

在相乘之后,我们的自然语言句子的向量就从 4x5000的矩阵 → 4x128的矩阵

也就是,从 高维稀疏矩阵 → 低维稠密矩阵

这就是 Embedding 的作用机制!

相关推荐
子綦4 分钟前
Andrej Karpathy 推荐的 AI 读书法:我是如何结合“沉浸式翻译”啃动英文顶会论文的?(附 Prompt 模板)
人工智能·经验分享·prompt·学习方法
Psycho_MrZhang41 分钟前
生成书评Prompt
prompt
知难行难2 小时前
修改 lm-evaluation-harness 任务 yaml 的 prompt
prompt
da_vinci_x5 小时前
PS 3D Viewer + AI 生成:灰盒(Greybox)一键变“3A”概念图
人工智能·游戏·数学建模·3d·prompt·aigc·游戏美术
xcLeigh17 小时前
AI的提示词专栏:Prompt 与传统机器学习特征工程的异同
人工智能·机器学习·ai·prompt·提示词
猫头虎21 小时前
本地部署 Stable Diffusion3.5超详细教程
stable diffusion·开源·prompt·github·aigc·midjourney·ai编程
iFlow_AI1 天前
AI 驱动的代码审查与测试用例生成:iFlow CLI在提测阶段的应用实践
prompt·测试用例·测试·心流·iflow·iflowcli
至此流年莫相忘1 天前
第二版:Windows 服务器上私有化部署 Qwen/Qwen3-Embedding-0.6B 模型
服务器·windows·embedding
阿杰学AI1 天前
AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)
人工智能·语言模型·aigc·embedding·向量数据库·rag·vector database
趁你还年轻_1 天前
Prompt Engineering 基础技巧完全指南
prompt