Databend 八月月报:向量检索重磅上线,性能飞跃几十倍

Hi,Databend 的朋友们!🚀

八月我们重磅推出:基于对象存储的向量检索功能 。通过 HNSW 索引算法实现了相似性搜索 23 倍性能提升 ,AI 应用终于可以在对象存储上高效运行了。结合我们已有的结构化数据和 JSON 处理能力,Databend 现在是完全基于对象存储构建的多模态数据仓库

八月数据

15+ 个新功能20+ 个 bug 修复15+ 项性能优化。最亮眼的还是向量检索,让 AI 应用在对象存储上也能获得极致性能。

本月亮点

🔥 重磅功能

  • HNSW 向量检索 - 基于 HNSW 索引,相似性搜索快 23 倍
  • 时间切片函数 - 时序数据分析更强大
  • JSON5 解析增强 - JSON 处理更灵活

性能和稳定性

  • 防栈溢出 - 解决了 CTE 和物理计划的递归溢出
  • 内存管理升级 - 大数据操作的溢出配置更合理
  • Meta 服务优化 - 压力减少 40%
  • 向量检索稳定性 - 修复了刷新时丢数据的问题

向量检索

📊 23 倍性能提升

优化前:

sql 复制代码
SELECT title, cosine_distance(embedding, :query) as score
FROM documents ORDER BY score LIMIT 10;
-- 8.2 秒,全表扫描

优化后(HNSW 索引加速):

sql 复制代码
-- 一模一样的查询
SELECT title, cosine_distance(embedding, :query) as score  
FROM documents ORDER BY score LIMIT 10;
-- 0.35 秒,索引加速

🎮 生产验证:游戏行业成功实践

在 Databend Cloud 上,已有多家游戏公司在生产环境使用向量检索:

  • 游戏推荐系统:基于玩家行为特征向量,实时推荐游戏内容和商品
  • 用户画像分析:通过玩家行为向量聚类,精准识别用户类型和价值
  • 反作弊检测:利用行为特征向量,快速识别异常玩家行为模式
  • 内容匹配:根据玩家偏好向量,智能匹配游戏关卡和活动

这些客户的真实业务需求持续推动着我们的技术改进,让向量检索功能越来越成熟可靠。

🚀 快速上手指南

语义搜索三步搞定:

1. 建表加索引

sql 复制代码
CREATE TABLE products (
    id INT,
    name VARCHAR,
    embedding VECTOR(1024),
    -- 自动获得 23 倍加速,HNSW 索引存储在对象存储
    VECTOR INDEX idx(embedding) distance='cosine'
);

2. 插入数据

sql 复制代码
INSERT INTO products VALUES 
(1, 'Wireless Headphones', [0.1, 0.2, ...]::VECTOR(1024)),
(2, 'Bluetooth Speaker', [0.3, 0.1, ...]::VECTOR(1024));

3. 高性能搜索

sql 复制代码
-- 毫秒级响应
SELECT name FROM products 
ORDER BY cosine_distance(embedding, :search_vector) 
LIMIT 5;

支持三种距离算法:

  • Cosine(余弦) - 文本语义相似性
  • L2(欧式距离) - 图像视觉相似性
  • L1(曼哈顿距离) - 特征对比分析

多模态数据仓库的价值

Databend 在对象存储上支持三大类数据的统一处理:

🏗️ 结构化数据 - 传统行列数据,列式存储高性能分析
📄 半结构化数据 - JSON文档,虚拟列技术 3 倍加速(七月)
🔍 非结构化数据 - 向量嵌入,HNSW 索引加速检索 23 倍(八月)

💰 成本优势

传统方案: 多系统拼凑

  • 结构化数据:ClickHouse/PostgreSQL
  • JSON 数据:MongoDB/Elasticsearch
  • 向量搜索:Pinecone等专用向量数据库
  • 复杂的数据管道连接各系统

Databend 方案: 统一平台

  • 所有数据类型存储在对象存储,成本降低 80%
  • 一套 SQL 处理所有数据类型,开发效率大幅提升
  • 无需数据搬迁和系统整合

🎯 实际应用

现在你可以用纯 SQL 搭建完整的 AI 应用 ------ 推荐系统、语义搜索、RAG 知识库,各种数据类型无缝配合。


Databend:多模态数据仓库,为 AI 应用而生

🔗 立即体验

相关推荐
JIngJaneIL1 天前
就业|高校就业|基于ssm+vue的高校就业信息系统的设计与实现(源码+数据库+文档)
java·前端·数据库·vue.js·spring boot·毕设·高校就业
CXH7281 天前
nginx-file-server
运维·数据库·nginx
一 乐1 天前
社区互助|社区交易|基于springboot+vue的社区互助交易系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·小区互助系统
q***57741 天前
Spring Boot 实战:轻松实现文件上传与下载功能
java·数据库·spring boot
失散131 天前
分布式专题——57 如何保证MySQL数据库到ES的数据一致性
java·数据库·分布式·mysql·elasticsearch·架构
YJlio1 天前
进程和诊断工具速查手册(8.13):VMMap / DebugView / LiveKd / Handle / ListDLLs 一页式现场排障清单
数据库·笔记·学习
whn19771 天前
达梦的dbms_lock在DSC中能用吗
数据库
未来之窗软件服务1 天前
自建开发工具IDE(五)数据库预览——东方仙盟炼气期
数据库·ide·仙盟创梦ide·东方仙盟
1***Q7841 天前
SQL Future
数据库·sql
hoiii1871 天前
设置Redis在CentOS7上的自启动配置
数据库·redis·缓存