Chroma:AI应用的开源向量数据基础设施

文章目录

Chroma:AI应用的开源向量数据基础设施

chroma-core/chroma 在GitHub上已经拿到27,870 Star了。

这个项目是开源AI数据基础设施,提供向量、混合和全文搜索能力,支持快速搭建RAG等AI应用。

Chroma的核心作用是简化AI应用的数据层开发。开发者无需单独处理向量存储、索引构建、相似度查询等底层逻辑,专注业务实现即可。

它提供两种部署模式,本地开发可以用内存模式快速原型验证,生产环境支持持久化存储和客户端-服务端部署。托管服务Chroma Cloud提供无服务器的向量、混合和全文搜索能力,启动成本低,扩展能力强,新用户注册可获得5美元免费额度。

安装只需要一行命令:

bash 复制代码
pip install chromadb

Python和JavaScript客户端都支持,客户端-服务端模式下可以直接用chroma run --path /chroma_db_path启动服务。

核心API只有4个函数,学习成本低:

python 复制代码
import chromadb
# 启动客户端,内存模式适合原型开发,也可以配置持久化
client = chromadb.Client()

# 创建集合,也支持获取、获取或创建、删除集合操作
collection = client.create_collection("all-my-documents")

# 向集合添加文档,自动处理分词、向量化和索引,也可以直接传入自定义向量
collection.add(
    documents=["This is document1", "This is document2"],
    metadatas=[{"source": "notion"}, {"source": "google-docs"}],
    ids=["doc1", "doc2"],
)

# 查询最相似的2个结果,也支持通过id直接获取
results = collection.query(
    query_texts=["This is a query document"],
    n_results=2,
)

Chroma适用场景包括:

  • 搭建RAG系统的开发者,需要存储和查询文档向量
  • 开发AI Agent的团队,需要给Agent提供长期记忆能力
  • 做语义搜索、推荐系统的产品团队,需要高效的相似度查询引擎

项目采用Apache 2.0开源协议,允许商业使用。团队每周一发布新版本,热修复随时推送。社区活跃,Discord有专门的贡献者频道,新手可以从标注good first issue的问题入手参与贡献。官方文档覆盖所有功能说明,还有配套的Google Colab示例可以直接运行测试。

开源地址:https://github.com/chroma-core/chroma

测试。

开源地址:https://github.com/chroma-core/chroma

相关推荐
火山引擎开发者社区1 小时前
技术速递|使用 GitHub Copilot CLI 构建 Emoji 列表生成器
人工智能
codefan※2 小时前
干掉“幻觉“实战:如何构建企业级知识图谱增强 RAG
人工智能·知识图谱
wukangjupingbb2 小时前
传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法的缺陷
人工智能
沪漂阿龙2 小时前
Codex 额度重置周期变化:AI 编程免费试玩时代正在结束
人工智能
TickDB2 小时前
美股行情 API 接入避坑:REST 快照、WebSocket 推送、盘前盘后数据的边界
人工智能·python·websocket·行情数据 api
装不满的克莱因瓶3 小时前
深入理解卷积神经网络(CNN)——从原理到代码实践
人工智能·神经网络·cnn
完成大叔3 小时前
模块二,Agent知识图谱的工具链思考
人工智能
lauo3 小时前
ibbot手机发布:搭载poplang技术 + token节点经济,革新AI手机体验
人工智能·智能手机
咖啡星人k3 小时前
云端开发环境技术架构深度解析:从容器隔离到AI Agent集成
人工智能·架构
袋鼠云数栈3 小时前
从前端到基础设施,ACOS 如何打通企业全链路可观测
运维·前端·人工智能·数据治理·数据智能