使用优化版的编辑距离算法替代ES默认的评分算法

优化版编辑距离算法

java 复制代码
    public static int minDistance(String str, String str1) {
        int len = str.length(), len1 = str1.length();
        // 预处理
        char[] arr1 = str.toCharArray();
        char[] arr2 = str1.toCharArray();

        // 动态规划数组
        int[] dp = new int[len1 + 1];
        for (int j = 0; j <= len1; j++) dp[j] = j;

        for (int i = 1; i <= len; i++) {
            int prevDiagonal = dp[0];
            dp[0] = i;
            char c1 = arr1[i-1];

            for (int j = 1; j <= len1; j++) {
                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                int newVal = dp[j] + 1;
                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                prevDiagonal = dp[j];
                dp[j] = newVal;
            }
        }
        return dp[len1];
    }

ES自定义评分脚本

java 复制代码
## 库名称:zhCNenUS-基建化工-油气-木木有限公司23456crm-QM、zhCNenUS-汽车-汽车-木木有限公司23456crm-QM
POST /tm/_search
{
  "query": {
    "bool": {
      "filter": [
        { "terms": { "dbId": ["101476","110316"] }},
        { "match": { 
          "original": {
            "query": "姓名:上云测试用户01",
            "minimum_should_match": "69%"
          }
        }}
      ],
      "must": [
        { "function_score": {
          "functions": [
            { "script_score": {
              "script": {
                "source": """
                    // 定义相似度计算函数(放于脚本顶部,str1是请求参数)
                    double calculate(String str, String str1) {
                        // 快速返回条件
                        if (str == null || str1 == null || str.isEmpty() || str1.isEmpty()) return 10.0;
                
                        int len = str.length(), len1 = str1.length();
                        int minLen = len < len1 ? len : len1;
                        int maxLen = len < len1 ? len1 : len;
                        double ratio = (double)minLen / maxLen;
                        if(ratio < 0.7) {
                            return 30;
                        }
                
                        String strLower = str.toLowerCase();
                        String str1Lower = str1.toLowerCase();
                
                        if(str.equals(str1)){
                            return 100;
                        }
                        if(strLower.equals(str1Lower)){
                            return 90;
                        }
                        // 预处理
                        char[] arr1 = strLower.toCharArray();
                        char[] arr2 = str1Lower.toCharArray();
                
                        // 动态规划数组
                        int[] dp = new int[len1 + 1];
                        for (int j = 0; j <= len1; j++) dp[j] = j;
                
                        for (int i = 1; i <= len; i++) {
                            int prevDiagonal = dp[0];
                            dp[0] = i;
                            char c1 = arr1[i-1];
                
                            for (int j = 1; j <= len1; j++) {
                                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                                // 取最小值
                                int newVal = dp[j] + 1;
                                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                                prevDiagonal = dp[j];
                                dp[j] = newVal;
                            }
                        }
                        return 80.0 * (1.0 / dp[len1]);
                    }
                
                    String es1 = doc['original.keyword'].value;
                    String es2 = doc['translation.keyword'].value;
                    String str1 = params.val1;
                    String str2 = params.val2;
                    // 计算纯文本的评分
                    double textRatio = calculate(es1, str1);
                    // 计算标签格式的评分
                    double tagRatio = calculate(es2, str2);
                    // 如果原文没有标签,语料有标签,则需要扣分
                    if(str2.length()==0 && es2.length()!=0) {
                        tagRatio=-tagRatio;
                    }
                    // 根据情况调整权重
                    return textRatio + 0.1 * tagRatio;
                """,
                "params": {
                  "val1": "姓名:上云测试用户01",
                  "val2": "<1>4<2/>4</1>"
                }
              }
            }}
          ],
          "boost_mode": "replace"
        }}
      ]
    }
  }
}
相关推荐
T1ssy4 小时前
布隆过滤器:用概率换空间的奇妙数据结构
算法·哈希算法
醇氧4 小时前
【Windows】优雅启动:解析一个 Java 服务的后台启动脚本
java·开发语言·windows
sunxunyong4 小时前
doris运维命令
java·运维·数据库
菜鸟起航ing4 小时前
Spring AI 全方位指南:从基础入门到高级实战
java·人工智能·spring
古城小栈5 小时前
Docker 多阶段构建:Go_Java 镜像瘦身运动
java·docker·golang
hetao17338375 小时前
2025-12-12~14 hetao1733837的刷题笔记
数据结构·c++·笔记·算法
MapGIS技术支持5 小时前
MapGIS Objects Java计算一个三维点到平面的距离
java·开发语言·平面·制图·mapgis
Coder_Boy_5 小时前
业务导向型技术日志首日记录(业务中使用的技术栈)
java·驱动开发·微服务
鲨莎分不晴6 小时前
强化学习第五课 —— A2C & A3C:并行化是如何杀死经验回放
网络·算法·机器学习
盖世英雄酱581366 小时前
springboot 项目 从jdk 8 升级到jdk21 会面临哪些问题
java·后端