【Easy-VectorDB】Faiss核心功能进阶

Faiss核心功能进阶

向量归一化和相似度匹配

核心原理:COSINE相似度与归一化关系
  • COSINE相似度用于衡量两个向量在方向上的一致性
  • 归一化后的向量之间的COSINE相似度直接等于他们的内积
  • 结论
    • 计算COSINE相似度时,必须先对向量进行L2归一化处理(即将向量的长度规范为1)
    • 使用COSINE相似度进行检索时,可以选择内积L2距离作为度量标准,前提是已对向量进行归一化。
核心API: faiss.normalize_L2
python 复制代码
### 对矩阵的每行(向量)做L2归一化
faiss.normalize_L2(x)

# 示例
x = np.array([[1,2,3], [4,5,6]], dtype=np.float32)
faiss.noramlize_L2(x)
实战:归一化前后检索结果对比

索引的保存与加载:适配工程化部署

索引训练耗时长(百万级别需分钟级),需将训练好的索引"持久化"保存,在线服务时直接加载使用,避免重复训练。

核心API与保存格式
  • faiss.write_index(index, 'index.path') , 将索引序列化保存至本地文件。注意"文件格式为二进制,不可编辑"
  • faiss.read_index('index.path'), 从本地文件加载索引,返回索引对象。注意"加载后可直接调用search方法,无需重新训练"。

注意

  • 索引需完成训练和数据添加后保存
  • 保存路径需有写入权限,建议用.index作为后缀标识
实战:离线训练索引,在线加载检索

案例代码使用的是本地运行离线数据集方式,如果要在ModelScope提供的CPU环境上执行,下载并上上传数据集方式引用。

在魔搭社区创建数据集(使用此数据集有问题,待处理)
  • 访问 魔搭数据集中心
  • 点击 「创建数据集」
    填写信息:
    数据集名称:例如 sift1m-fvecs
    命名空间:你的用户名(如 yourname)
    可见性:私有(默认)或公开(需审核)
    数据格式:选择「其他」或「向量检索」
    描述:说明包含 .fvecs/.ivecs,用于 ANN benchmark
  • 点击 「上传文件」,将上述 3 个文件上传
  • 点击 「提交」→ 「发布版本」(如 v1.0)
替换其他数据集,修改代码逻辑尝试
  • 在魔搭里找到一些开源数据集,参考使用方式 + 数据集文件,进行修改处理。
  • 魔搭数据集

后续补充,先记录

参考文档

Faiss核心功能进阶

相关推荐
果汁华2 分钟前
Browserbase Skills:让 Claude Agent 真正“看见“网页世界
人工智能·python
ZhengEnCi3 分钟前
04-缩放点积注意力代码实现 💻
人工智能·python
HackTwoHub1 小时前
AI大模型网关存在SQL注入、附 POC 复现、影响版本LiteLLM 1.81.16~1.83.7(CVE-2026-42208)
数据库·人工智能·sql·网络安全·系统安全·网络攻击模型·安全架构
段一凡-华北理工大学1 小时前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
网络工程小王2 小时前
【LangChain 大模型6大调用指南】调用大模型篇
linux·运维·服务器·人工智能·学习
HIT_Weston2 小时前
63、【Agent】【OpenCode】用户对话提示词(示例)
人工智能·agent·opencode
CV-杨帆2 小时前
Phi-4-mini-flash-reasoning 部署安装与推理测试完整记录
人工智能
MediaTea2 小时前
AI 术语通俗词典:C4.5 算法
人工智能·算法
海兰2 小时前
【第27篇】Micrometer + Zipkin
人工智能·spring boot·alibaba·spring ai
DeepReinforce3 小时前
四、AI量化投资:使用akshare获取A股主板20260430筛选后的涨停股票
人工智能