【es】elasticsearch 自定义排序-按关键字位置排序

一 背景

要求es查询的结果按关键字位置排序,位置越靠前优先级越高。

es版本7.14.0,项目是thrift,也可以平替springboot,使用easyes连接es。

二 easyes使用

配easyes按官方文档就差不多了

排序 | Easy-Es

主要的一个问题是easyes有与mybatis相同的一套mapper,如果项目也用了mybatis,那需要将mybatis、easyes的mapper分成两个目录

见:避坑指南 | Easy-Es

还有实体类的主键,按ee官方推荐是留个没注解的id自动生成id,而不是指定自己生成的主键,因为会影响数据储存的分区,导致查询效率降低

具体查询:(config、mapper、实体类略)

java 复制代码
// 查询构造
        LambdaEsQueryWrapper<EsSearchDocument> listWrapper = new LambdaEsQueryWrapper<>();
// 查询条件(相等)
        listWrapper.eq(EsSearchDocument::getType, searchType);
// 查询条件(模糊),与上条是and关系
        listWrapper.like(EsSearchDocument::getTitle, searchContent);
// 分页偏移量计算
        int offset = ((pageNum != null ? Integer.parseInt(pageNum) : 1) - 1) * size;
//查询总条数
        Long count = esMapper.selectCount(listWrapper);
// 设置分页
        listWrapper.limit(offset, size); // 分页
// 查询结果列表
        List<EsSearchDocument> esList = esMapper.selectList(listWrapper);
        
//打印
        System.out.println("count="+count);
        System.out.println(JSON.toJSONString(esList));

三 自定义排序

es官方排序是按重复次数、内容长度、权重之类,用一个啥公式算出来分数排的

大学也许还能看懂点,现在是完全不懂了

easyes也提供了按字段排序之类(见上面官方文档链接)

回到问题,es、ee都没有按关键字位置排序的。不过es、ee还提供了自定义脚本 painless,可以自己写处理方式。那就好说了,在脚本里获得字段原文,indexof拿到关键字所在位置,根据这个值排序。

大部分网上的文档这么写(包括文心一言):

可以看到取原文的写法是 doc['字段.keyword'].value

经过实测会报错:

1 字段.keyword 不存在。去掉.keyword能取到,但取得是内容片段,比如原文"金坷垃好处都有啥",这个word/words值是"都有啥"。

2 text类型字段不能拆出来排序,否则报错:

Text fields are not optimised for operations that require per-document field data like aggregations

意思就是text类型字段被es禁用了聚合、排序操作,要么加注解(fielddata=true)才能解锁,要么改成keyword类型。但加注解会影响效率,有多影响待观察。

这个字段是用了ik分词器的,去掉分词器后(谨慎改变实体类,每次改变都会试es数据清空),word值成了"啥"

到这里已经一整天过去了

然后翻阅es的官方文档,终于发现这么一句:

Field context | Painless Scripting Language [7.14] | Elastic

意思是 doc['字段']写法不适用于text类型字段。想取到原值可以 params['_source']['字段']

试了下还真可以。

param是可以传动态参数的,使脚本避免反复编译提高效率。另外doc、_source、ctx是结合上下文在不同场景用的,比如doc是_search查询用的,但这个问题的查询就用了_source,不能太死板

探究 | Elasticsearch Painless 脚本 ctx、doc、_source 的区别是什么?-腾讯云开发者社区-腾讯云

最后加了这么一段

java 复制代码
// 定义脚本
        String painlessScriptStr = " String word = params['_source']['title'];" + 
                " int position = (word != null && !''.equals(word)) ? word.indexOf(params['searchContent']) : -1; " + 
                " return position; ";
        // 自定义评分规则
        
        Script script = new Script(ScriptType.INLINE, "painless", painlessScriptStr, Collections.singletonMap("searchContent", searchContent));
        ScriptSortBuilder ssb = new ScriptSortBuilder(script, ScriptSortBuilder.ScriptSortType.NUMBER)
                .order(SortOrder.ASC);

        listWrapper.sort(ssb);
相关推荐
码上飞扬24 分钟前
Java大师成长计划之第22天:Spring Cloud微服务架构
java·运维·云计算
秋野酱42 分钟前
基于javaweb的SpringBoot自习室预约系统设计与实现(源码+文档+部署讲解)
java·spring boot·后端
面试官E先生1 小时前
【极兔快递Java社招】一面复盘|数据库+线程池+AQS+中间件面面俱到
java·面试
琢磨先生David1 小时前
构建优雅对象的艺术:Java 建造者模式的架构解析与工程实践
java·设计模式·建造者模式
End9281 小时前
Spark之搭建Yarn模式
大数据·分布式·spark
我爱写代码?1 小时前
Spark 集群配置、启动与监控指南
大数据·开发语言·jvm·spark·mapreduce
TDengine (老段)1 小时前
什么是物联网 IoT 平台?
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
小雅痞1 小时前
[Java][Leetcode simple]26. 删除有序数组中的重复项
java·leetcode
青云交1 小时前
Java 大视界 -- 基于 Java 的大数据分布式存储在工业互联网海量设备数据长期存储中的应用优化(248)
java·大数据·工业互联网·分布式存储·冷热数据管理·hbase 优化·kudu 应用
会飞的架狗师2 小时前
【SpringBoot实战指南】集成Easy ES
spring boot·elasticsearch