关于微软最新数据库引擎sqlserver2025 关于向量距离函数调用的问题

关于微软最新数据库引擎sqlserver2025 关于向量距离函数调用的问题

已经通过模型将知识库分段向量1024维存入数据库,现在要实现RAG,需要从向量数据中检索出相似知识片段,然后将片段作为输入告诉人工智能后提问,实现RAG增强。

但是问题来了,微软发布的最新数据库引擎支持三个向量函数,

VECTOR_DISTANCE // 计算向量距离相似度 支持 cosine - 余弦距离 euclidean - Euclidean 距离 dot - (负数) 点积

VECTOR_SEARCH // 搜索向量距离 这个函数需要建立 VECTOR_INDEX 索引方可使用

因为知识库是动态知识库,而且向量索引建立以后数据不可以增删改,需要删除索引修改完在重建对

对于小数据量,知识库数据50000以下不建议创建索引,直接使用VECTOR_DISTANCE计算。

微软提供的例子都是在存储过程中实现向量相似度计算,但是我们的知识库是动态知识库,按照一个知识库对应一个向量集合表,那么存储过程需要拼接数据库表命,语法太乱了不喜欢,那么如何直接通过TSQL语句直接计算向量向量相似度呢?

首先直接把1024维的float 作为参数传入sql语句,会报一个 varchar 超过长度问题,其实不难理解,毕竟是预览版,微软的工程师也是在摸索呢,所以用 varchar(max) 封装了 vector 类型。

所以经过我仔细研究,可以通过 CAST('[1.5,2.3,0.8...]' AS vector(1024)) 转换向量类型,然后传入SQL语句 就可以直接在 netcore _context.Database.ExecuteSqlRaw(SqlCmd); 执行。

SELECT TOP(2) * FROM [dbo].[Vector_efc5013f0432473294a5991163e8f441] ORDER BY VECTOR_DISTANCE('cosine',CAST('[-1.6799299e+000,2.7846149e-001,-9.0215802e-001,-8.3536464e-001,-1.5517933e+000,6.6706377e-001,5.9230852e-001,-5.1769388e-001,-5.9696758e-001,3.4299669e-001,5.3145283e-001,6.3425183e-001,-9.0269399e-001,-5.7276227e-002,9.0233982e-002]' AS vector(1024)),Embedding)

相关推荐
许泽宇的技术分享13 小时前
当AI Agent学会“打电话“——微软Agent Framework的A2A与AGUI协议深度解析
人工智能·microsoft·a2a协议·ai多智能体·agui
运维行者_13 小时前
不同规模企业如何选 OPM?参考局域网管理软件与 cpu 温度监控适配指南
大数据·运维·服务器·网络·数据库·postgresql·snmp
冰冰菜的扣jio14 小时前
MySQL高性能优化合集
数据库·mysql
weixin_4046793114 小时前
vscode 配置cpp调试环境
数据库·ide·vscode·编辑器
TG:@yunlaoda360 云老大14 小时前
华为云国际站代理商GaussDB主要有什么作用呢?
服务器·数据库·华为云·gaussdb
ohoy14 小时前
业务数据聚合分析 xxl-job定时任务
数据库·oracle
数据皮皮侠AI14 小时前
数字经济政策工具变量数据(2008-2023)
大数据·数据库·人工智能·笔记·1024程序员节
赫尔·普莱蒂科萨·帕塔14 小时前
从 “脑梗“ 到 “功夫高手“
数据库·人工智能·agi
IvanCodes14 小时前
openGauss 存储核心机制:从表空间到数据块
数据库·sql·oracle·opengauss
Francek Chen14 小时前
【IoTDB】时序数据库选型指南:国产自研技术如何应对数据洪流
大数据·数据库·时序数据库·iotdb