百万数据的小系统,搜索标题,不要上ES! 不要上ES!

杀鸡用牛刀

按照小数据量的查询商品标题,比如在一个四百万个商品里找标题,如果是使用 %标题关键词% 会全表扫描 ,一些小伙伴会忍不住上ES 或者 XunSearch ,我以前遇到的小系统,不少的人是这么干的

其实没有必要,可能百分之99的开发者,这辈子都用不上。没有达一种非常夸张的数据量的时候,几百万个商品标题也是小事一桩。下面由我娓娓道来。

搜"一个饼干的包装"中的 "饼干" 不用%%

有没有一种方式,比如把 搜索 "一个饼干的包装" ,直接命中"饼干" 直接索引读取

思路打开

我们假设有一种方式,就是可以通过分词工具,比如 用jieba-php 进行分词。

假设,有两张表 product

product_title

css 复制代码
            Jieba::init();
            Finalseg::init();
            $tokens = Jieba::cut($model->title);

我把商品标题表储存在 product 表中, 然后分词的储存在 product_title 中,这样就形成了对应,饼干和包装分两条数据储存在了product_title 表中,其中对应着 product_id 。 其中product_title 的title 加了索引

这种情况就像是论坛里的朋友开发过的优化查询的插件 whereIn([product_id,product_id ])差不多的方案。

但是这种方式太low 了,要是多创建几个表搜索那不是要炸。

有没有现成的?

那有没有一种laravel 插件,或者mysql 插件能直接做呢?

//话外~~~,其实写到这的时候就不想写了,现在gpt这么发达,还写博客,我都不知道自己在干嘛~

其实mysql 自带就有,叫 全文索引(FULLTEXT)

sql 复制代码
CREATE TABLE test (
  id INT AUTO_INCREMENT PRIMARY KEY,
  title TEXT,
  FULLTEXT(title)
);

这种方式的索引和我刚刚举例的的方式有点像,就是先进行了分词,分完词之后会储存到一个地方,读取的

php 复制代码
$searchTerm = '关键词';
$results = YourModel::where('title', 'like', "%$searchTerm%")
    ->orWhereRaw("MATCH(title) AGAINST(? IN NATURAL LANGUAGE MODE)", [$searchTerm])
    ->get();

这种方式又会遇到问题,因为mysql 不知道中文呀,它只知道有空格的英文,中文分词默认的方式不行,需要一种 兼容 中文,日文,韩文这种语言叫做ngram分词的倒排索引

sql 复制代码
 ALTER TABLE  表名 ADD FULLTEXT(title) WITH PARSER ngram;

通过相对比较精确的分词,可以很快的完成我们的目标,搜索 "饼干"能找到相应的 文档ID ,直接命中索引

加不加 ngram 的区别:

还有最后一个问题

我们搜索场景搜索 "饼干包装" ,如果直接搜索能行吗? 不行! 因为没有储存"饼干包装"的文档库,如何实现呢?

还能再优化下吗?

从应用层面实现:

拿到用户的keyword 之后,用分词工具分开来, 再通过 implode('+',$cuts) 的方式塞到查询中

sql 复制代码
SELECT * FROM test_fulltext WHERE MATCH(title) AGAINST('饼干+包装' IN BOOLEAN MODE);

还有就是索引保存在磁盘,意味着你不要买大内存的服务器部署 ,运行在内存中的中间件 ,可以调节mysql 的索引缓冲来优化查询

实在不行,docker+ 主 从+从+从+从+从+从+从+从+从+从+从+从+从 .... 就能解决

再说了你用es 并发大了,也要考虑分布式

以后小伙伴们,业务中有类似的需求的时候,可以试试这种方案哈,别一个小小的系统还搞这些中间件哈,百分之99的开发碰不上,真的,我men只是配角!

好啦,到此结束!

相关推荐
码农幻想梦5 小时前
实验五 spring入门及IOC实验
java·后端·spring
a程序小傲5 小时前
蚂蚁Java面试被问:向量数据库的相似度搜索和索引构建
开发语言·后端·python·架构·flask·fastapi
派大鑫wink7 小时前
【Day39】Spring 核心注解:@Component、@Autowired、@Configuration 等
java·后端·spring
Java程序员威哥8 小时前
Java应用容器化最佳实践:Docker镜像构建+K8s滚动更新(生产级完整模板+避坑指南)
java·开发语言·后端·python·docker·kubernetes·c#
源代码•宸8 小时前
Golang原理剖析(defer、defer面试与分析)
开发语言·经验分享·后端·面试·golang·defer·开放编码
南山乐只8 小时前
Java并发原生工具:原子类 (Atomic Classes)
java·开发语言·后端
爱丽_8 小时前
Spring 框架
java·后端·spring
小北方城市网9 小时前
SpringBoot 集成 RabbitMQ 实战(消息队列):实现异步通信与系统解耦
java·spring boot·后端·spring·rabbitmq·mybatis·java-rabbitmq
sunnyday04269 小时前
从混乱到清晰:Maven 依赖版本管理最佳实践
java·spring boot·后端·maven
雨中飘荡的记忆9 小时前
Spring Test 从入门到实战
java·后端·spring