简单的敏感词提示功能

1. 需求

公司现在接到通知，部分接口的部分手动输入字段，需要新增敏感词报红提示，敏感词汇现在应该是7000多个左右，需要我们提供一个敏感词校验接口，如果前端输入敏感词，则前端提示出输入的非法敏感词信息，并且分词需要支持自定义字典信息。

2.具体实现

此接口的实现过程也是相对简单，主要是使用java的分词器进行前端输入字符串代码分词，然后使用分词后的结果集与数据库中的数据进行比对，如果比对成功，则证明前端页面字符输入有非法的敏感词汇，返回给前端提示即可，数据库中数据则是在服务启动的时候加载到服务内存中，以hashSet形式进行存储(因为hashSet.contains方法效率比较高)

具体的简单实现步骤如下：

引入分词器pom坐标
添加自定义分词字典文件
初始化加载数据库数据，加载自定义分词字典
编写判定接口，进行敏感字判定

自定义词典格式要求，词典格式和dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。具体词性列表如下所示：

参数	类型	含义解释
Ag	形语素	形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。
a	形容词	取英语形容词 `adjective` 的第1个字母。
ad	副形词	直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an	名形词	具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b	区别词	取汉字"别"的声母。
c	连词	取英语连词 `conjunction`的第1个字母。
dg	副语素	副词性语素。副词代码为 d，语素代码ｇ前面置以D。
d	副词	取 `adverb`的第2个字母，因其第1个字母已用于形容词。
e	叹词	取英语叹词 `exclamation`的第1个字母。
f	方位词	取汉字"方"
g	语素	绝大多数语素都能作为合成词的"词根"，取汉字"根"的声母。
h	前接成分	取英语 `head`的第1个字母。
i	成语	取英语成语 `idiom`的第1个字母。
j	简称略语	取汉字"简"的声母。
k	后接成分
l	习用语	习用语尚未成为成语，有点"临时性"，取"临"的声母。
m	数词	取英语 numeral的第3个字母，n，u已有他用。
Ng	名语素	名词性语素。名词代码为 n，语素代码ｇ前面置以N。
n	名词	取英语名词 `noun`的第1个字母。
nr	人名	名词代码 n和"人(ren)"的声母并在一起。
ns	地名	名词代码 n和处所词代码s并在一起。
nt	机构团体	"团"的声母为 t，名词代码n和t并在一起。
nz	其他专名	"专"的声母的第 1个字母为z，名词代码n和z并在一起。
o	拟声词	取英语拟声词 `onomatopoeia`的第1个字母。
p	介词	取英语介词 `prepositional`的第1个字母。
q	量词	取英语 `quantity`的第1个字母。
r	代词	取英语代词 `pronoun` 的第2个字母,因p已用于介词。
s	处所词	取英语 `space` 的第1个字母。
tg	时语素	时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t	时间词	取英语 `time`的第1个字母。
u	助词	取英语助词 `auxiliary`
vg	动语素	动词性语素。动词代码为 v。在语素的代码g前面置以V。
v	动词	取英语动词 verb的第一个字母。
vd	副动词	直接作状语的动词。动词和副词的代码并在一起。
vn	名动词	指具有名词功能的动词。动词和名词的代码并在一起。
w	标点符号
x	非语素字	非语素字只是一个符号，字母 x通常用于代表未知数、符号。
y	语气词	取汉字"语"的声母。
z	状态词	取汉字"状"的声母的前一个字母。
un	未知词	不可识别词及用户自定义词组。取英文 `Unkonwn`首两个字母。(非北大标准，`CSW`分词中定义)

3. 代码部分

引入pom信息

xml 复制代码

<!-- 结巴分词 -->
<dependency>
    <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
    <version>1.0.2</version>
</dependency>

添加自定义分词字典文件

在resources目录下添加新的分词文件

初始化加载数据库数据，加载自定义分词字典

java 复制代码

package cn.git.init;

import com.huaban.analysis.jieba.WordDictionary;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import java.io.File;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.util.HashSet;
import java.util.Objects;
import java.util.Set;

/**
 * @description: 自定义分词词典加载初始化
 * @program: bank-credit-sy
 * @author: lixuchun
 * @create: 2024-08-13
 */
@Slf4j
@Component
public class AnalyzerInit {

    /**
     * 敏感词集合
     */
    public static Set<String> sensitiveWordsSet = new HashSet<>();

    /**
     * 自定义词典路径
     */
    private static final String DICT_PATH = "dict/custom.dict";

    /**
     * 初始化加载自定义分词词典
     */
    @PostConstruct
    public void analyzerInit() {
        // 获取自定义词典信息
        String dictFilePath = Objects.requireNonNull(getClass().getClassLoader().getResource(DICT_PATH)).getPath();
        Path path = Paths.get(new File(dictFilePath).getAbsolutePath());

        log.info("开始加载分词词典信息,获取自定义词典路径[{}]", dictFilePath);

        //加载自定义的词典进词库
        WordDictionary.getInstance().loadUserDict(path);
        log.info("加载自定义词典信息完毕");

        // 开始加载数据库中敏感词信息,大写字母修改为小写字母，此过程正常应该是在数据库中获取
        for (int i = 0; i < 1000000; i++) {
            if (i == 0) {
                sensitiveWordsSet.add("傻x");
                sensitiveWordsSet.add("牛p");
                sensitiveWordsSet.add("先烈的电话");
            } else {
                sensitiveWordsSet.add("傻x" + i);
                sensitiveWordsSet.add("牛p" + i);
            }
        }
        log.info("数据库中敏感分词加载完毕!");
    }
}

编写判定接口，进行敏感字判定

java 复制代码

package cn.git.analysis;

import cn.git.init.AnalyzerInit;
import com.alibaba.fastjson.JSONObject;
import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.SegToken;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import java.util.ArrayList;
import java.util.List;

/**
 * @description: 分词测试controller
 * @program: bank-credit-sy
 * @author: lixuchun
 * @create: 2024-08-13
 */
@RestController
@RequestMapping("/analyzer")
public class AnalyzerController {

    /**
     * 分词测试方法
     */
    @GetMapping("/test")
    public String test() {
        // 创建分词对象
        JiebaSegmenter jiebaSegmenter = new JiebaSegmenter();

        // 其中傻X是自定义分词，正常接收到字符串首先去除空格，然后调用分词方法
        String[] sentences = new String[] {
                "傻X上海这是一个伸手不见五指的黑夜。我叫孙悟空咸阳6合彩，我爱北京，我爱Python和C++。h动画", "我不喜欢日本和服。", "雷猴回归人间。",
                "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作先烈的电话，牛p啊", "结果婚的和尚未结过婚的666"
        };

        // 进行分词展示
        List<String> sentenceWordList = new ArrayList<>();
        for (String sentence : sentences) {
            List<SegToken> process = jiebaSegmenter.process(sentence, JiebaSegmenter.SegMode.INDEX);
            process.forEach(segToken -> {
                if (AnalyzerInit.sensitiveWordsSet.contains(segToken.word)) {
                    sentenceWordList.add(segToken.word);
                }
            });
        }

        // 输出敏感词汇
        return JSONObject.toJSONString(sentenceWordList);
    }
}

4.测试部分

使用请求简单测试 http://localhost:8089/analyzer/test，返回敏感词信息结果如下