使用优化版的编辑距离算法替代ES默认的评分算法

优化版编辑距离算法

java 复制代码
    public static int minDistance(String str, String str1) {
        int len = str.length(), len1 = str1.length();
        // 预处理
        char[] arr1 = str.toCharArray();
        char[] arr2 = str1.toCharArray();

        // 动态规划数组
        int[] dp = new int[len1 + 1];
        for (int j = 0; j <= len1; j++) dp[j] = j;

        for (int i = 1; i <= len; i++) {
            int prevDiagonal = dp[0];
            dp[0] = i;
            char c1 = arr1[i-1];

            for (int j = 1; j <= len1; j++) {
                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                int newVal = dp[j] + 1;
                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                prevDiagonal = dp[j];
                dp[j] = newVal;
            }
        }
        return dp[len1];
    }

ES自定义评分脚本

java 复制代码
## 库名称:zhCNenUS-基建化工-油气-木木有限公司23456crm-QM、zhCNenUS-汽车-汽车-木木有限公司23456crm-QM
POST /tm/_search
{
  "query": {
    "bool": {
      "filter": [
        { "terms": { "dbId": ["101476","110316"] }},
        { "match": { 
          "original": {
            "query": "姓名:上云测试用户01",
            "minimum_should_match": "69%"
          }
        }}
      ],
      "must": [
        { "function_score": {
          "functions": [
            { "script_score": {
              "script": {
                "source": """
                    // 定义相似度计算函数(放于脚本顶部,str1是请求参数)
                    double calculate(String str, String str1) {
                        // 快速返回条件
                        if (str == null || str1 == null || str.isEmpty() || str1.isEmpty()) return 10.0;
                
                        int len = str.length(), len1 = str1.length();
                        int minLen = len < len1 ? len : len1;
                        int maxLen = len < len1 ? len1 : len;
                        double ratio = (double)minLen / maxLen;
                        if(ratio < 0.7) {
                            return 30;
                        }
                
                        String strLower = str.toLowerCase();
                        String str1Lower = str1.toLowerCase();
                
                        if(str.equals(str1)){
                            return 100;
                        }
                        if(strLower.equals(str1Lower)){
                            return 90;
                        }
                        // 预处理
                        char[] arr1 = strLower.toCharArray();
                        char[] arr2 = str1Lower.toCharArray();
                
                        // 动态规划数组
                        int[] dp = new int[len1 + 1];
                        for (int j = 0; j <= len1; j++) dp[j] = j;
                
                        for (int i = 1; i <= len; i++) {
                            int prevDiagonal = dp[0];
                            dp[0] = i;
                            char c1 = arr1[i-1];
                
                            for (int j = 1; j <= len1; j++) {
                                int cost = (c1 == arr2[j-1]) ? 0 : 1;
                                // 取最小值
                                int newVal = dp[j] + 1;
                                newVal = newVal < dp[j-1] + 1 ? newVal : dp[j-1] + 1;
                                newVal = newVal < prevDiagonal + cost ? newVal : prevDiagonal + cost;
                                prevDiagonal = dp[j];
                                dp[j] = newVal;
                            }
                        }
                        return 80.0 * (1.0 / dp[len1]);
                    }
                
                    String es1 = doc['original.keyword'].value;
                    String es2 = doc['translation.keyword'].value;
                    String str1 = params.val1;
                    String str2 = params.val2;
                    // 计算纯文本的评分
                    double textRatio = calculate(es1, str1);
                    // 计算标签格式的评分
                    double tagRatio = calculate(es2, str2);
                    // 如果原文没有标签,语料有标签,则需要扣分
                    if(str2.length()==0 && es2.length()!=0) {
                        tagRatio=-tagRatio;
                    }
                    // 根据情况调整权重
                    return textRatio + 0.1 * tagRatio;
                """,
                "params": {
                  "val1": "姓名:上云测试用户01",
                  "val2": "<1>4<2/>4</1>"
                }
              }
            }}
          ],
          "boost_mode": "replace"
        }}
      ]
    }
  }
}
相关推荐
程序员小凯1 小时前
Spring Boot文件处理与存储详解
java·spring boot·后端
Miraitowa_cheems2 小时前
LeetCode算法日记 - Day 88: 环绕字符串中唯一的子字符串
java·数据结构·算法·leetcode·深度优先·动态规划
黑云压城After3 小时前
vue2实现图片自定义裁剪功能(uniapp)
java·前端·javascript
B站_计算机毕业设计之家3 小时前
python电商商品评论数据分析可视化系统 爬虫 数据采集 Flask框架 NLP情感分析 LDA主题分析 Bayes评论分类(源码) ✅
大数据·hadoop·爬虫·python·算法·数据分析·1024程序员节
小白菜又菜4 小时前
Leetcode 1518. Water Bottles
算法·leetcode·职场和发展
长存祈月心4 小时前
Rust Option 与 Result深度解析
算法
zcl_19914 小时前
记一次ThreadLocal导致的生产事故
java
RoboWizard4 小时前
怎么判断我的电脑是否支持PCIe 5.0 SSD?Kingston FURY Renegade G5
java·spring·智能手机·电脑·金士顿
杭州杭州杭州5 小时前
机器学习(3)---线性算法,决策树,神经网络,支持向量机
算法·决策树·机器学习
毕设源码-钟学长5 小时前
【开题答辩全过程】以 儿童游泳预约系统为例,包含答辩的问题和答案
java·eclipse