AI学习_04_向量概念

前言

RAG流程中,向量库是一个重要的节点。

  • 离线流程:知识和信息 --> 向量嵌入(向量化) --> 存入向量库
  • 在线流程:用户的提问 --> 向量嵌入(向量化) --> 在向量库中匹配

什么是向量?

什么是向量

概念:

向量(Vector)就是文本的 "数学身份证":它把一段文字的语义信息 ,转换成一串固定长度的数字列表 ,让计算机能 "看懂" 文字的含义并做相似度计算

简单来说,就是让计算机更方便的理解不同的文本内容,是否表述的是一个意思。

例如这两句话:

  • 如何快速学习RAG
  • RAG如何快速学会

人类可能知道是一个意思,但是计算机却不知道

可以参考下图理解

如何把文本转化为数字向量

通过文本嵌入模型 (如text-embedding-v1)通过深度学习等技术,从文本提取语义特征并映射为固定长度的数字序列。

具体原理这里不深究,因为会牵扯到深度学习。

只需要记得可以使用文本嵌入模型来实现即可

如何通过向量匹配每句话意义

在向量匹配的过程中,如何识别2段文本是否表述相似的含义,主要可以通过如余弦相似度等算法来完成。

比如(下列案例中向量为示例,仅描述概念,非真实向量):

  • A: "如何快速学打篮球" → 0.2, 0.5, 0.8
  • B: "打篮球怎么学得快" → 0.18, 0.52, 0.79
  • C: "运动后吃什么好呢" → 0.9, 0.1, 0.2

通过余弦相似度算法可以计算得到:A和B相似度0.999789,A和C相似度0.361446,其中相似度越靠近1,相似度越高

由此可通过精确的数学计算,去匹配2段文本是否描述同一个意思,提高语义匹配的效率和精度。

向量维度

如何更为精准的完成语义匹配,生成向量的维度是一个很重要的指标。

如text-embedding-v1模型,可以生成1536维的向量(一段文本固定得到1536个数字序列),比较实用。

  • 1536个数字表示,这段文本在1536个主题(抽象的语义特征)方向上的得分(强度)
  • 生成向量的维度越多,就更好的记录文本的语义特征,做语义匹配会更加精准。
  • 更多的向量会在计算、存储和匹配过程中,带来更大的压力。

选择合适的向量维度需要在精确和性能之间做平衡。

一般1536维算是比较好的选择。

这里有点抽象,后面还是需要再深入研究下

例如:一段文本是如何拆分成维度的,这个可能涉及到了模型底层了。。

总结

向量(Vector)就是文本的 "数学身份证"

它把一段文字的语义信息,转换成一串固定长度的数字列表,让计算机能"看懂" 文字的含义并做相似度计算。

  • 向量的计算(文本嵌入过程),可借助文本嵌入模型实现,如text-embedding-v1
  • 向量的匹配通过算法实现,如余弦相似度
  • 向量的维度表示一段文本在多个抽象语义特征方面的强度
    • 维度数代表模型用多少个抽象语义特征来描述文本
    • 维度越多,做语义匹配越精准
    • 但性能压力也会增大
相关推荐
GIOTTO情6 小时前
智能舆情处置技术方案:基于NLP语义研判的全链路自动化处置与风控落地
人工智能·自然语言处理·自动化
朗迪锋6 小时前
数字孪生如何成为工人安全的“隐形护甲”?
人工智能·安全·3d·数字孪生·数智孪生
nashane7 小时前
HarmonyOS 6学习:DevEco Studio跨平台开发环境深度排障指南
学习·华为·harmonyos
AI搅拌机7 小时前
LoRA训练实战23:Flux2 Klein Base人物角色训练,保姆级教程,对新手友好!
人工智能
知识分享小能手7 小时前
数据预处理入门学习教程,从入门到精通,数据获取 — 知识点详解与案例代码(4)
python·学习·pandas
吃好睡好便好7 小时前
矩阵秩的计算
人工智能·学习·线性代数·算法·机器学习·matlab·矩阵
诸葛务农7 小时前
溶液纳米颗粒净化技术及其在光刻胶纳过滤和提纯中的应用(下)
人工智能
计算机安禾7 小时前
【算法分析与设计】第35篇:后缀数据结构:后缀树与后缀数组的构造
大数据·人工智能·算法·机器学习·剪枝
RockHopper20257 小时前
从结构化建模到动态语义映射:AI时代企业软件系统的重构逻辑
人工智能·智能体·语义驱动·运行语义
玩c#的小杜同学7 小时前
未来 AI 会装进电脑里吗?本地 AI、AI PC 和企业隐私计算
人工智能·微软·c#·电脑·英伟达