Spring AI Alibaba入门学习(六)

一、什么是文本向量化?

1.1 通俗理解

文本向量化就是把文字(如一句话、一段文章)转换成一串数字(向量)的过程。这串数字就像文字的"数学指纹",能够被计算机理解和计算。

举个生活中的例子

  • 形容一个人:身高175cm、体重70kg、年龄28岁 → [175, 70, 28](这就是一个三维向量)

  • 形容"苹果"这个词:可能被转换成 [0.2, -0.5, 0.8, 0.1, ...](高维向量)

1.2 为什么需要向量化?

核心原因 :计算机无法理解文字的"含义",只能处理数字。向量化的目标是将文字的语义关系 映射到数学空间中。

关键特性:语义相近的文字,它们的向量在空间中也相互靠近。

复制代码
"猫"    → [0.2, 0.8, 0.3, ...]
"猫咪"  → [0.21, 0.79, 0.31, ...]  (距离很近)
"汽车"  → [0.9, 0.1, 0.7, ...]     (距离较远)

1.3 向量化的过程

复制代码
原始文本 
    ↓
分词处理 
    ↓
【嵌入模型(Embedding Model)】
   - OpenAI的text-embedding-ada-002
   - 通义千问的text-embedding-v1
   - 开源的all-MiniLM-L6-v2
    ↓
高维向量(如384维、768维、1536维)
    ↓
[0.12, -0.34, 0.56, 0.78, -0.23, ...]

1.4 向量化的核心价值

二、向量数据库介绍

2.1 什么是向量数据库?

向量数据库 是专门用于存储、管理和检索向量数据 的数据库系统。它的核心能力是通过高效的索引结构相似性计算算法 ,支持大规模向量数据的快速查询与分析

维度越高,查询精准度也越高,但计算复杂度也会增加。

2.2 与传统数据库的对比

2.3 向量数据库的核心能力

  1. 向量索引:建立高效的数据结构,避免暴力遍历

  2. 相似性搜索:支持余弦相似度、欧氏距离、内积等距离计算

  3. 混合检索:同时支持向量相似度搜索和标量字段过滤

  4. 高性能:亿级数据毫秒级响应

2.4 常见向量数据库分类

2.5 向量数据库的核心算法

2.5.1 相似性度量方法

复制代码
// 1. 余弦相似度(Cosine Similarity)
相似度 = cos(θ) = (A·B) / (|A|·|B|)
// 值域[-1, 1],越接近1越相似,常用于文本

// 2. 欧氏距离(Euclidean Distance)
距离 = √(∑(Aᵢ - Bᵢ)²)
// 越小越相似

// 3. 内积(Dot Product)
内积 = A·B = ∑Aᵢ·Bᵢ
// 越大越相似,常用于评分预测

2.5.2 索引算法

2.6 向量数据库的典型应用

  • 应用1:语义搜索(RAG的基础)

    用户问题:"如何治疗感冒?"
    ↓ 向量化
    [0.2, -0.5, 0.8, ...]
    ↓ 向量数据库相似性搜索
    返回最相似的文档:

    1. "感冒的常见治疗方法..."(相似度0.95)
    2. "流感预防措施..."(相似度0.82)
    3. "发烧如何处理..."(相似度0.71)
  • 应用2:推荐系统

    用户看过《流浪地球》
    ↓ 向量化
    [0.3, 0.7, -0.2, ...]
    ↓ 向量数据库搜索
    推荐相似电影:

    1. 《星际穿越》(相似度0.92)
    2. 《火星救援》(相似度0.88)
    3. 《阿凡达》(相似度0.75)
  • 应用3:图片搜索

    "一张日落海滩的照片"
    ↓ 文本向量化
    [0.1, 0.6, -0.3, ...]
    ↓ 搜索图片向量库
    返回最匹配的图片

2.7 向量数据库在RAG中的位置

复制代码
用户问题 
    ↓
向量化(Embedding Model)
    ↓
【向量数据库检索】 ← 知识库文档(已向量化)
    ↓
返回最相关的N个文档片段
    ↓
问题 + 检索到的文档 → 大模型(LLM) → 最终答案
相关推荐
ai产品老杨2 分钟前
深度解析:基于异构计算的工业级AI视频中台架构,如何实现GB28181/RTSP跨平台部署与源码交付?
人工智能·架构·音视频
Rubin智造社3 分钟前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
geneculture4 分钟前
本真信息观:基于序位守恒的融智学理论框架——人类认知第二次大飞跃的基础
人工智能·算法·机器学习·数据挖掘·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
俊哥V11 分钟前
每日 AI 研究简报 · 2026-04-25
人工智能·ai
szxinmai主板定制专家15 分钟前
基于RK3588超小体积,轻巧,长续航的无人机AI模块,支持视频跟踪
arm开发·人工智能·嵌入式硬件·fpga开发·无人机
我是无敌小恐龙19 分钟前
Java SE 零基础入门 Day05 类与对象核心详解(封装+构造方法+内存+变量)
java·开发语言·人工智能·python·机器学习·计算机视觉·数据挖掘
~央千澈~24 分钟前
《2026鸿蒙NEXT纯血开发与AI辅助》第五章:选择成熟方案,创建第一个鸿蒙应用并成功运行-卓伊凡
人工智能·华为·harmonyos·harmony·harmony os
ting945200025 分钟前
Kimi-VL-A3B-Thinking 技术全解
人工智能·架构
monkeyhlj28 分钟前
AI Agent开发课程笔记记录 - 提升篇 About RAG
人工智能·笔记