Elasticsearch向量搜索介绍

你有没有过这种经历?

你想买一双"跑步穿的轻便鞋子",你在电商搜索框输入"透气跑鞋 "。

结果出来的全是"耐克 "、"阿迪达斯"这些品牌名,或者标题里只带了"透气"两个字但其实是皮鞋的商品。

这是因为传统的数据库搜索就像个死板的图书管理员:它只认识字面意思。你搜"苹果",它绝不会给你"iPhone",除非你明确告诉它"苹果=iPhone"。

但现在,AI 时代来了,我们希望搜索能像人类一样思考:你搜"苹果",它不仅给你水果,还能给你手机,甚至给你《白雪公主》的毒苹果。

这就是向量搜索(Vector Search)。今天,我们就用最简单的例子,看看 Elasticsearch 是怎么做到的。


第一部分:把文字变成"坐标"

计算机看不懂文字,只看得懂数字。要让计算机理解"语义",第一步是把文字变成一串数字,这串数字叫向量(Vector)

想象一下二维坐标系(X轴,Y轴):

  • "国王 " 的坐标可能是 [0.9, 0.1]
  • "王后 " 的坐标可能是 [0.8, 0.3]
  • "苹果 " 的坐标可能是 [0.1, 0.9]

在这个地图上,"国王"和"王后"离得很近(都是皇室成员),而"苹果"离它们很远。

现实情况 : 现在的 AI 模型(如 BERT、OpenAI Embeddings)会把文字变成768维甚至更高维 的向量。虽然人类无法想象768维空间,但原理一样:意思越像的词,在这个多维空间里距离越近。

第二部分:向量搜索是怎么工作的?

当你把数据存入 Elasticsearch 时,不仅要存文字,还要存它对应的向量(那一长串数字)。

场景 : 你要找"一种红色的水果"。

  1. 向量化 : ES 先把你的搜索词"一种红色的水果"也转换成向量,假设是 [0.2, 0.8]
  2. 找邻居 : ES 拿着这个坐标,去数据库里找离它物理距离最近的向量。
  3. 返回结果
    • 向量 [0.1, 0.9](苹果) -> 距离 0.14(很近!)
    • 向量 [0.3, 0.7](草莓) -> 距离 0.14(很近!)
    • 向量 [0.9, 0.1](西红柿[1]) -> 距离 0.9(有点远)
    • 向量 [0.8, 0.2](胡萝卜) -> 距离 1.0(太远了,不要)

结果 : 哪怕你没提"苹果"这两个字,只要你描述了它的特征,ES 也能把它找出来!这就是语义搜索


第三部分:实战!3 分钟用 ES 跑通向量搜索

别被"高维数学"吓到了,在 Elasticsearch 8.x/9.x 里,操作简单得像写 SQL。

1. 准备工作:创建一个带向量的索引

我们要建一个存放"文档"的仓库,并告诉 ES:"这里的 text_embedding 字段是向量,有 3 个维度(为了演示简单,实际通常是 768+)"。

json 复制代码
PUT /my_blog_index
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "text_embedding": {
        "type": "dense_vector",
        "dims": 3,
        "index": true,
        "similarity": "cosine" 
      }
    }
  }
}

解释:dense_vector 就是告诉 ES 这是个向量字段;similarity 定义了怎么算距离(余弦相似度是最常用的)。

2. 插入数据(模拟 AI 已经帮我们转好了向量)

假设 AI 模型已经把我们的文章标题变成了向量:

json 复制代码
POST /my_blog_index/_bulk
{ "index": { "_id": 1 } }
{ "title": "如何做番茄炒蛋", "text_embedding": [0.1, 0.5, 0.8] }
{ "index": { "_id": 2 } }
{ "title": "苹果手机最新评测", "text_embedding": [0.2, 0.6, 0.7] }
{ "index": { "_id": 3 } }
{ "title": "红烧肉的做法", "text_embedding": [0.9, 0.1, 0.2] }
3. 搜索:我想找"水果相关的食谱"

我脑海里想的是"水果",AI 把"水果"转换成了向量 [0.15, 0.55, 0.75]

执行搜索(KNN - K Nearest Neighbors):

json 复制代码
GET /my_blog_index/_search
{
  "knn": {
    "field": "text_embedding",
    "query_vector": [0.15, 0.55, 0.75],
    "k": 2,
    "num_candidates": 100
  },
  "_source": ["title"]
}

预测结果

ES 会计算距离,发现 [0.1, 0.5, 0.8](番茄炒蛋)和 [0.2, 0.6, 0.7](苹果评测)离我的查询向量最近。

虽然"番茄炒蛋"里没有"水果"二字,但在向量空间里,它和"水果"的语义更接近(比如都含有维生素、植物等潜在语义),所以它会排在"红烧肉"前面。


第四部分:ES 向量搜索的"杀手锏"

你可能会问:"我为什么要用 ES?专门的向量数据库不是更强吗?"

Elasticsearch 的最大优势在于:它是"混合"的王者。

  1. Hybrid Search(混合搜索)

    有时候你需要既精确又模糊。比如搜"红色的 iPhone 15 手机壳"。

    • 传统搜索(BM25):确保结果里必须有"iPhone 15"这个词(精确)。
    • 向量搜索(KNN):确保结果里包含"好看的"、"防摔的"等语义(模糊)。
    • ES 可以用 RRF (Reciprocal Rank Fusion) 算法把两者分数一综合,给你最完美的结果。
  2. 元数据过滤(Pre/Post Filtering)

    "给我找2023年以后 发布的、价格低于50元 的、语义上像 '运动鞋'的商品。"

    在向量搜索的同时,直接加上 price < 50date > 2023 的过滤条件,效率极高。

  3. 生态完善

    你不需要维护两套系统(一套存业务数据,一套存向量)。ES 全搞定,而且还能顺便做日志分析、全网搜索。

总结

Elasticsearch 的向量搜索并不是什么黑魔法,它就是:

  1. Embedding:用 AI 模型把字变成数字坐标。
  2. Indexing:把坐标存进专门的数据结构(HNSW 图)里加速查找。
  3. Searching:算出"你的问题"和"库存数据"在数学上的距离。

如果你还在用 LIKE %...% 做搜索,或者被精确匹配折磨得头秃,赶紧试试 ES 的向量搜索吧。让你的搜索框,真正读懂用户的心。


注:[1] 在植物学上,西红柿确实是水果,但在菜市场它是蔬菜。这正好体现了传统搜索的尴尬和向量搜索的灵活性------取决于你的训练数据!

相关推荐
金融小师妹7 小时前
基于多模态宏观建模与历史序列对齐:原油能源供给冲击的“类1970年代”演化路径与全球应对机制再评估
大数据·人工智能·能源
播播资源7 小时前
OpenAI2026 年 3 月 18 日最新 gpt-5.4-nano模型:AI 智能体的“神经末梢”,以极低成本驱动高频任务
大数据·人工智能·gpt
GJGCY8 小时前
中小企业财务AI工具技术评测:四大类别架构差异与选型维度
大数据·人工智能·ai·架构·财务·智能体
九河云9 小时前
云上安全运营中心(SOC)建设:从被动防御到主动狩猎
大数据·人工智能·安全·架构·数字化转型
武子康9 小时前
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查
大数据·后端·apache hive
jinanwuhuaguo9 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw
Rubin智造社9 小时前
# OpenClaude命令实战|核心控制三剑客/reasoning+/verbose+/status 实操指南
大数据·人工智能
华奥系科技10 小时前
智慧经济新格局:解码社区、园区与城市一体化建设逻辑
大数据·人工智能·科技·物联网·安全
TDengine (老段)11 小时前
TDengine IDMP 组态面板 —— 画布
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
阿里云大数据AI技术11 小时前
阿里云荣获 2025–2026 年度 Elastic中国最佳合作伙伴奖
人工智能·elasticsearch