sqlite-vec:谁说SQLite不是向量数据库?

sqlite-vec 是一个 SQLite 向量搜索插件,具有以零依赖、轻量级、跨平台和高效 KNN 搜索等优势,是本地化向量检索(例如 RAG)、轻量级 AI 应用以及边缘计算等场景的理想工具。

sqlite-vec 使用纯 C 语言实现,零外部依赖,体积小巧,适用于各种 SQLite 运行环境(Linux、MacOS、Windows、WASM、Android、iOS、Raspberry Pi 等)。

sqlite-vec 基于 vec0 虚拟表实现了 float、int8 以及二进制向量的存储与相似查询,所有操作都基于 SQL 完成。

sqlite-vec 提供了多种编程语言(Python、Ruby、Node.js、Deno、Bun、Go、Rust 等)驱动,以下命令用于安装 Python 模块:

bash 复制代码
pip install sqlite-vec

接下来是一个在 Python 代码中使用 sqlite-vec 的简单示例:

python 复制代码
import sqlite3
import sqlite_vec

from typing import List
import struct


def serialize_f32(vector: List[float]) -> bytes:
    """serializes a list of floats into a compact "raw bytes" format"""
    return struct.pack("%sf" % len(vector), *vector)


db = sqlite3.connect(":memory:")
db.enable_load_extension(True)
sqlite_vec.load(db)
db.enable_load_extension(False)

sqlite_version, vec_version = db.execute(
    "select sqlite_version(), vec_version()"
).fetchone()
print(f"sqlite_version={sqlite_version}, vec_version={vec_version}")

items = [
    (1, [0.1, 0.1, 0.1, 0.1]),
    (2, [0.2, 0.2, 0.2, 0.2]),
    (3, [0.3, 0.3, 0.3, 0.3]),
    (4, [0.4, 0.4, 0.4, 0.4]),
    (5, [0.5, 0.5, 0.5, 0.5]),
]
query = [0.3, 0.3, 0.3, 0.3]

db.execute("CREATE VIRTUAL TABLE vec_items USING vec0(embedding float[4])")

with db:
    for item in items:
        db.execute(
            "INSERT INTO vec_items(rowid, embedding) VALUES (?, ?)",
            [item[0], serialize_f32(item[1])],
        )

rows = db.execute(
    """
      SELECT
        rowid,
        distance
      FROM vec_items
      WHERE embedding MATCH ?
      ORDER BY distance
      LIMIT 3
    """,
    [serialize_f32(query)],
).fetchall()

print(rows)

代码运行的结果如下:

bash 复制代码
sqlite_version=3.45.3, vec_version=v0.1.6
[(3, 0.0), (4, 0.19999998807907104), (2, 0.20000001788139343)]

更多的介绍和示例可以参考网址:

https://alexgarcia.xyz/sqlite-vec/

另外,这个开源项目的作者还提供了两个用于生成文本嵌入(Text Embedding)的项目,配合 sqlite-vec 使用更加方便:

  • sqlite-rembed,基于远程 API(OpenAI、Nomic、Ollama 等)生成文本嵌入;
  • sqlite-lembed,基于 .gguf 格式的本地嵌入模型生成文本嵌入。
相关推荐
another heaven4 分钟前
【深度学习 超参调优】lr0与lrf 的关系
人工智能·深度学习
放下华子我只抽RuiKe55 分钟前
深度学习全景指南:硬核实战版
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·数据挖掘
天空之城_tsf20 分钟前
通用多模态检索——大模型微调
人工智能·深度学习·计算机视觉
万邦科技Lafite21 分钟前
利用淘宝商品详情接口获取商品价格,监控商品价格浮动
数据库·api·开放api接口·淘宝开放接口
财迅通Ai26 分钟前
天立国际携手电子科技大学对话凯文・凯利,共探科技与教育未来
人工智能·科技·天立国际控股
zhojiew1 小时前
在RAG系统中对FAISS,HNSW,BM25向量检索引擎选型的问题
人工智能·机器学习·faiss
深藏功yu名1 小时前
Day24:向量数据库 Chroma_FAISS 入门
数据库·人工智能·python·ai·agent·faiss·chroma
OpenBayes贝式计算1 小时前
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
人工智能·深度学习·机器学习
知识分享小能手1 小时前
MongoDB入门学习教程,从入门到精通,MongoDB创建、更新和删除文档(3)
数据库·学习·mongodb
3DVisionary1 小时前
突破3C质检产能瓶颈:XTOM蓝光扫描仪配合自动化转台实现精密件批量检测
运维·人工智能·自动化·xtom扫描仪·自动化检测·消费电子质检·良率控制