SpringBoot2.3整合HanLP1.7.7

一、需求场景

提取地址字符串中的 区、街乡镇、村的字段,使用获取到的字段向经信局发起请求获取经纬度和点位名称,保存至数据库。

二、使用技术

HanLP+SpringBoot

三、设计思路

四、具体实现

  1. pom引入jar

    com.hankcs hanlp 1.7.7 com.hankcs hanlp-sources 1.7.7

  2. 自定义词典,设置自定义词典中的词属性为na:

    #自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用"文件名 词性"形式则表示这个词典的词性默认是该词性。优先级递减。 #所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从单词 词性A A的频次 词性B B的频次 ... 如果不填词性则表示采用词典的默认词性。 CustomDictionaryPath=data/dictionary/custom/add_place.txt na; non-place.txt n;

  3. 获取属性为na的字符串,拼接到一起:

    /**

    • 获取ns nt类型字符串,一旦遇到非规定类型直接结束
    • ns 地名
    • nt 机构团体名 */ public static String\[\] getNaStr(String address) { List termList = StandardTokenizer.segment(address); String word = ""; String hasNa = "false"; for (Term term : termList) { if ("na".equals(term.nature.toString())) { if (word.length() <= term.word.length()) { word = term.word; hasNa = "true"; } } } // 结果第一个是是否找到na属性字符串,第二个是最长的na字符串 return new String\[\]{hasNa, word}; }

五、效果

相关推荐
葫芦和十三19 分钟前
图解 MongoDB 26|片键设计:决定集群命运的一个决定
后端·mongodb·agent
Avan_菜菜1 小时前
使用 Docker + rclone 自建 WebDAV
后端·agent·claude
阳光是sunny3 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器
前端·人工智能·后端
万少4 小时前
万少的博客 - 技术分享与解决方案
前端·javascript·后端
咖啡八杯4 小时前
GoF设计模式——备忘录模式
java·后端·spring·设计模式
苍何5 小时前
腾讯再放大招,企微 Agent 大圆开启内测
后端
ethantan5 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
Cosolar7 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
IT_陈寒7 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端
用户8356290780518 小时前
使用 Python 在 PDF 中创建与管理书签
后端·python