Spring AI Alibaba入门学习(六)

一、什么是文本向量化?

1.1 通俗理解

文本向量化就是把文字(如一句话、一段文章)转换成一串数字(向量)的过程。这串数字就像文字的"数学指纹",能够被计算机理解和计算。

举个生活中的例子

  • 形容一个人:身高175cm、体重70kg、年龄28岁 → [175, 70, 28](这就是一个三维向量)

  • 形容"苹果"这个词:可能被转换成 [0.2, -0.5, 0.8, 0.1, ...](高维向量)

1.2 为什么需要向量化?

核心原因 :计算机无法理解文字的"含义",只能处理数字。向量化的目标是将文字的语义关系 映射到数学空间中。

关键特性:语义相近的文字,它们的向量在空间中也相互靠近。

复制代码
"猫"    → [0.2, 0.8, 0.3, ...]
"猫咪"  → [0.21, 0.79, 0.31, ...]  (距离很近)
"汽车"  → [0.9, 0.1, 0.7, ...]     (距离较远)

1.3 向量化的过程

复制代码
原始文本 
    ↓
分词处理 
    ↓
【嵌入模型(Embedding Model)】
   - OpenAI的text-embedding-ada-002
   - 通义千问的text-embedding-v1
   - 开源的all-MiniLM-L6-v2
    ↓
高维向量(如384维、768维、1536维)
    ↓
[0.12, -0.34, 0.56, 0.78, -0.23, ...]

1.4 向量化的核心价值

二、向量数据库介绍

2.1 什么是向量数据库?

向量数据库 是专门用于存储、管理和检索向量数据 的数据库系统。它的核心能力是通过高效的索引结构相似性计算算法 ,支持大规模向量数据的快速查询与分析

维度越高,查询精准度也越高,但计算复杂度也会增加。

2.2 与传统数据库的对比

2.3 向量数据库的核心能力

  1. 向量索引:建立高效的数据结构,避免暴力遍历

  2. 相似性搜索:支持余弦相似度、欧氏距离、内积等距离计算

  3. 混合检索:同时支持向量相似度搜索和标量字段过滤

  4. 高性能:亿级数据毫秒级响应

2.4 常见向量数据库分类

2.5 向量数据库的核心算法

2.5.1 相似性度量方法

复制代码
// 1. 余弦相似度(Cosine Similarity)
相似度 = cos(θ) = (A·B) / (|A|·|B|)
// 值域[-1, 1],越接近1越相似,常用于文本

// 2. 欧氏距离(Euclidean Distance)
距离 = √(∑(Aᵢ - Bᵢ)²)
// 越小越相似

// 3. 内积(Dot Product)
内积 = A·B = ∑Aᵢ·Bᵢ
// 越大越相似,常用于评分预测

2.5.2 索引算法

2.6 向量数据库的典型应用

  • 应用1:语义搜索(RAG的基础)

    用户问题:"如何治疗感冒?"
    ↓ 向量化
    [0.2, -0.5, 0.8, ...]
    ↓ 向量数据库相似性搜索
    返回最相似的文档:

    1. "感冒的常见治疗方法..."(相似度0.95)
    2. "流感预防措施..."(相似度0.82)
    3. "发烧如何处理..."(相似度0.71)
  • 应用2:推荐系统

    用户看过《流浪地球》
    ↓ 向量化
    [0.3, 0.7, -0.2, ...]
    ↓ 向量数据库搜索
    推荐相似电影:

    1. 《星际穿越》(相似度0.92)
    2. 《火星救援》(相似度0.88)
    3. 《阿凡达》(相似度0.75)
  • 应用3:图片搜索

    "一张日落海滩的照片"
    ↓ 文本向量化
    [0.1, 0.6, -0.3, ...]
    ↓ 搜索图片向量库
    返回最匹配的图片

2.7 向量数据库在RAG中的位置

复制代码
用户问题 
    ↓
向量化(Embedding Model)
    ↓
【向量数据库检索】 ← 知识库文档(已向量化)
    ↓
返回最相关的N个文档片段
    ↓
问题 + 检索到的文档 → 大模型(LLM) → 最终答案
相关推荐
卷Java14 小时前
GPT-Image 2隐藏玩法:上传手掌照片,AI一键生成专业手相解读图
人工智能·gpt
knight_9___14 小时前
大模型project面试4
人工智能·python·深度学习·算法·面试·agent
志栋智能14 小时前
安全、稳定是超自动化运维的底座
网络·数据库·人工智能
无忧智库14 小时前
某集团企业智能体(Agent)操作系统(AOS)基础平台与企业级Agent治理体系详细设计方案(WORD)
大数据·人工智能
csdn小瓯14 小时前
AI质量评估体系:LLM-as-a-Judge实现与自动化测试实战
前端·网络·人工智能
沫儿笙14 小时前
库卡弧焊机器人混合气焊接节气装置
人工智能·机器人
卡卡大怪兽14 小时前
MCP 和 CLI
人工智能
Black蜡笔小新14 小时前
企业私有化AI训练推理一体工作站DLTM:筑牢企业数据安全,打造企业专属AI能力底座
人工智能
Ting-yu14 小时前
SpringCloud快速入门(5)---- 均衡负载
java·spring·spring cloud