java中rag使用mysql作为向量数据库,存储读写如何优化

如今大模型崛起,当涉及到复杂业务检索时候离不开rag,有很多老铁在研究rag的时候发现都会使用各种向量数据库,和普通数据有什么区别的,其实没区别就是存储,就是对向量专门优化过的存储,实际用mysql也是能实现

mysql存储向量的问题

假设向量是768维度,他是一个数组, 直接存到mysql是没法存的,需要转为字符串,但rag应用是需要做向量的相似度比对,需要在查询的时候还原数组,将输入的向量和每个存储好的文档向量做比对。那问题关键在于数据的读写效率,转成字符串,有多种方法,请看下面案例

java 复制代码
	public static void main(String[] args) {

		//构建模拟向量
		float[] data = new float[768];
		for (int i = 0; i < data.length; i++) {
			data[i] = i;
		}
		
		//第一种join split
		long first = System.currentTimeMillis();
		String join = CollUtil.join(CollUtil.newArrayList(data), ",");
		String[] split = join.split(",");
		List<String> newArrayList = CollUtil.newArrayList(split);
		
		long second = System.currentTimeMillis();
		System.out.println("通过join split: " + (second - first));
		
		//第二种json序列化
		String jsonStr = JSONUtil.toJsonStr(data);
		List<Float> newArrayList2 = JSONUtil.toList(jsonStr, Float.class);
		
		long third = System.currentTimeMillis();
		System.out.println("通过json序列化: " + (third - second));
		
		//第三种toString+substring
		String string = Arrays.toString(data);
		string = string.substring(1);
		string = string.substring(0, string.length()-1);
		
		String[] split2 = string.split(",");
		float[] newArrayList3 = new float[split2.length];
        for (int i = 0; i < split2.length; i++) {
        	newArrayList3[i] = Float.parseFloat(split2[i]);
        }
		
        long four = System.currentTimeMillis();
        
		System.out.println("toString+截取: " + (four - third));
		
		
	}
java 复制代码
通过join split: 197
通过json序列化: 63
toString+截取: 2

分别使用三种方法评测,假设有1000个文档(向量),使用前面两种方法,检索长则几分钟,对面很明显了,如果采用第三种,那也就是2秒左右。

结论

toString和截取效率是最高的,大家就知道怎么优化了吧

当然如果你大规模还是建议使用文档类数据库或向量数据库

相关推荐
lybugproducer1 小时前
创建型设计模式之:简单工厂模式、工厂方法模式、抽象工厂模式、建造者模式和原型模式
java·设计模式·建造者模式·简单工厂模式·工厂方法模式·抽象工厂模式·面向对象
南客先生1 小时前
马架构的Netty、MQTT、CoAP面试之旅
java·mqtt·面试·netty·coap
Minyy111 小时前
SpringBoot程序的创建以及特点,配置文件,LogBack记录日志,配置过滤器、拦截器、全局异常
xml·java·spring boot·后端·spring·mybatis·logback
百锦再1 小时前
Java与Kotlin在Android开发中的全面对比分析
android·java·google·kotlin·app·效率·趋势
星星点点洲2 小时前
【缓存与数据库结合最终方案】伪从技术
数据库·缓存
小黑屋的黑小子2 小时前
【MySQL】MySQL索引与事务
数据库·mysql·oracle
武昌库里写JAVA2 小时前
39.剖析无处不在的数据结构
java·vue.js·spring boot·课程设计·宠物管理
Nelson_hehe5 小时前
Java基础第四章、面向对象
java·语法基础·面向对象程序设计
OK_boom5 小时前
Dapper的数据库操作备忘
数据库
Thomas_YXQ5 小时前
Unity3D Lua集成技术指南
java·开发语言·驱动开发·junit·全文检索·lua·unity3d