使用优化版的编辑距离算法替代ES默认的评分算法

优化版编辑距离算法

java 复制代码
    public static int minDistance(String str, String str1) {
        int len = str.length(), len1 = str1.length();
        // 预处理
        char[] arr1 = str.toCharArray();
        char[] arr2 = str1.toCharArray();

        // 动态规划数组
        int[] dp = new int[len1 + 1];
        for (int j = 0; j <= len1; j++) dp[j] = j;

        for (int i = 1; i <= len; i++) {
            int prevDiagonal = dp[0];
            dp[0] = i;
            char c1 = arr1[i-1];

            for (int j = 1; j <= len1; j++) {
                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                int newVal = dp[j] + 1;
                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                prevDiagonal = dp[j];
                dp[j] = newVal;
            }
        }
        return dp[len1];
    }

ES自定义评分脚本

java 复制代码
## 库名称:zhCNenUS-基建化工-油气-木木有限公司23456crm-QM、zhCNenUS-汽车-汽车-木木有限公司23456crm-QM
POST /tm/_search
{
  "query": {
    "bool": {
      "filter": [
        { "terms": { "dbId": ["101476","110316"] }},
        { "match": { 
          "original": {
            "query": "姓名:上云测试用户01",
            "minimum_should_match": "69%"
          }
        }}
      ],
      "must": [
        { "function_score": {
          "functions": [
            { "script_score": {
              "script": {
                "source": """
                    // 定义相似度计算函数(放于脚本顶部,str1是请求参数)
                    double calculate(String str, String str1) {
                        // 快速返回条件
                        if (str == null || str1 == null || str.isEmpty() || str1.isEmpty()) return 10.0;
                
                        int len = str.length(), len1 = str1.length();
                        int minLen = len < len1 ? len : len1;
                        int maxLen = len < len1 ? len1 : len;
                        double ratio = (double)minLen / maxLen;
                        if(ratio < 0.7) {
                            return 30;
                        }
                
                        String strLower = str.toLowerCase();
                        String str1Lower = str1.toLowerCase();
                
                        if(str.equals(str1)){
                            return 100;
                        }
                        if(strLower.equals(str1Lower)){
                            return 90;
                        }
                        // 预处理
                        char[] arr1 = strLower.toCharArray();
                        char[] arr2 = str1Lower.toCharArray();
                
                        // 动态规划数组
                        int[] dp = new int[len1 + 1];
                        for (int j = 0; j <= len1; j++) dp[j] = j;
                
                        for (int i = 1; i <= len; i++) {
                            int prevDiagonal = dp[0];
                            dp[0] = i;
                            char c1 = arr1[i-1];
                
                            for (int j = 1; j <= len1; j++) {
                                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                                // 取最小值
                                int newVal = dp[j] + 1;
                                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                                prevDiagonal = dp[j];
                                dp[j] = newVal;
                            }
                        }
                        return 80.0 * (1.0 / dp[len1]);
                    }
                
                    String es1 = doc['original.keyword'].value;
                    String es2 = doc['translation.keyword'].value;
                    String str1 = params.val1;
                    String str2 = params.val2;
                    // 计算纯文本的评分
                    double textRatio = calculate(es1, str1);
                    // 计算标签格式的评分
                    double tagRatio = calculate(es2, str2);
                    // 如果原文没有标签,语料有标签,则需要扣分
                    if(str2.length()==0 && es2.length()!=0) {
                        tagRatio=-tagRatio;
                    }
                    // 根据情况调整权重
                    return textRatio + 0.1 * tagRatio;
                """,
                "params": {
                  "val1": "姓名:上云测试用户01",
                  "val2": "<1>4<2/>4</1>"
                }
              }
            }}
          ],
          "boost_mode": "replace"
        }}
      ]
    }
  }
}
相关推荐
花落人散处1 小时前
SpringAI——接入高德MCP服务
java·后端
超浪的晨1 小时前
Java 代理机制详解:从静态代理到动态代理,彻底掌握代理模式的原理与实战
java·开发语言·后端·学习·代理模式·个人开发
天天摸鱼的java工程师1 小时前
🧠 MySQL 索引结构有哪些?优缺点是什么?【原理 + 场景实战】
java·后端·面试
java叶新东老师1 小时前
idea提交时忽略.class、.iml文件和文件夹或目录的方法
java·开发语言
飞翔的佩奇1 小时前
Java项目:基于SSM框架实现的社区团购管理系统【ssm+B/S架构+源码+数据库+毕业论文+答辩PPT+远程部署】
java·数据库·vue.js·毕业设计·mybatis·答辩ppt·社区团购
TDengine (老段)1 小时前
TDengine 转化函数 TO_TIMESTAMP 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
Warren982 小时前
Java Collections工具类
java·开发语言·笔记·python·学习·oracle·硬件工程
java叶新东老师2 小时前
CMakelists.txt 实现多级目录编译
java·服务器·数据库
_风不会停息2 小时前
JDK1.8升级 JDK21 实践踩坑
java
SimonKing2 小时前
一文搞定:SpringBoot集成语音识别模型FunASR
java·人工智能·后端