Embedding(嵌入)是什么?从文本到Embedding的流程是怎样的?

1、什么是Embedding?

Embedding(嵌入)是指把文本(也可能包括图像、视频等其他模态数据)转成能表达语义信息的浮点数向量,向量之间的数学距离可以反映对应文本之间的语义相关性。

2、从文本到Embedding的流程

Embedding的生成方式,主要分两种情况:

1)大模型推理中的Embedding(Token级)

文本先通过分词器拆分成最小语言单位token,例如:"unbelievable"→["un","believ","able"]

接着查询词表,将每个token被映射成一个数字编号,比如:"un"→1087。

根据编号查询Embedding矩阵,快速取出对应的浮点数向量,例如:"un"→[0.24,-0.31,0.88,..., 0.05]。

生成Token级的Embedding,是大模型理解输入文本的第一步。

2)独立使用的Embedding(句子/文档级)

如果需要表示一整句或一段文本(比如在RAG中检索),就不能只查表了。

常见做法是:将文本输入到一个专门训练好的Embedding模型(如 Sentence-BERT、M3E),通过推理生成一个完整的句子或文档级向量。

这种Embedding包含了更丰富的上下文信息,适合检索、相似性判断等场景。

3、Embedding的本质:语义可被数字表示

在模型训练中,发现文本的语义可以被"压缩"成一组数字向量,且向量之间的距离和方向,能自然反映文本间的语义关系。

比如

"猫"和"狗"对应向量的数学距离很近,代表它们语义接近(都是动物)

"房子"和"你好"对应向量的数学距离很远,表示它们语义无关

模型甚至可以学到:king-man+woman≈queen 这样的语义数学关系

这些规律并非人为设定,而是模型通过海量数据自动学习到的。

4、Embedding的应用场景

Embedding不仅用于大模型推理时将输入文本编码为语义向量,也广泛应用于实际场景,例如:

检索增强生成(RAG) :将文档或知识内容转化为向量存储,推理时通过向量检索相关片段,扩展模型上下文,提升回答准确性。

相似性判断:比较文本向量的距离或角度,判断语义一致性或检测重复内容。

文本聚类与分析:将文本编码为向量后进行聚类,挖掘内容结构和主题分布,如K-means聚类。

5、常见问题答疑

Q:Token 和 Embedding 是一回事吗?

A:不是。Token是编号(离散的ID),Embedding是承载语义的连续向量,二者功能完全不同。

Q:Embedding 是模型训练出来的吗?

A:是的。Embedding 向量是模型通过海量语料学习到的语义表示,而不是手动设定或硬编码的。

Q:Embedding 向量长度固定吗?为什么?

A:在同一个模型中,所有Embedding向量的长度是固定的(例如:512维、768维),这样可以统一模型内部的计算结构,方便批量处理和矩阵运算。不同模型之间的向量长度则可能不同。

AI大模型系统化学习入口

相关推荐
小小小小小鹿27 分钟前
Ai入门-搭建一个专属的ai学习助手
llm·ai编程
r0ad2 小时前
四大主流AI Agent框架选型梳理
llm·agent
智泊AI3 小时前
GPU并行计算是什么?GPU并行计算的原理是什么?
llm
yaocheng的ai分身4 小时前
主流大模型的Cache机制对比
llm
数据智能老司机6 小时前
构建由 LLM 驱动的 Neo4j 应用程序——揭开 RAG 的神秘面纱
langchain·llm·aigc
数据智能老司机6 小时前
构建由 LLM 驱动的 Neo4j 应用程序——构建智能应用的知识图谱基础理解
langchain·llm·aigc
数据智能老司机6 小时前
构建由 LLM 驱动的 Neo4j 应用程序——使用电影数据集构建你的Neo4j图数据库
langchain·llm·aigc
曾曜7 小时前
大模型学习比较-优化提示词改善答疑机器人回答质量
llm
数据智能老司机8 小时前
构建由 LLM 驱动的 Neo4j 应用程序——LLM、RAG 与 Neo4j 知识图谱简介
langchain·llm·aigc
阿里云大数据AI技术1 天前
云上AI推理平台全掌握 (5):大模型异步推理服务
大数据·人工智能·llm