敏感词过滤

敏感词过滤工具

java 复制代码

import com.github.houbb.sensitive.word.api.IWordContext;
import com.github.houbb.sensitive.word.api.IWordReplace;
import com.github.houbb.sensitive.word.api.IWordResult;
import com.github.houbb.sensitive.word.utils.InnerWordCharUtils;

public class MyWordReplace implements IWordReplace {
    @Override
    public void replace(StringBuilder stringBuilder, char[] chars, IWordResult iWordResult, IWordContext iWordContext) {
        // 根据字符数组和词结果信息构建敏感词字符串
        String sensitiveWord = InnerWordCharUtils.getString(chars, iWordResult);
        if ("五星红旗".equals(sensitiveWord)){
            stringBuilder.append("国家旗帜");
        } else if ("毛主席".equals(sensitiveWord)) {
            stringBuilder.append("教员");
        } else {
            // 默认替换
            int length =iWordResult.endIndex()-

敏感词过滤工具

一、简介

sensitive-word 基于 DFA 算法实现的高性能敏感词工具。

二、应用场景

社交媒体和论坛：在用户生成内容（UGC）平台上，如微博、微信、论坛等，敏感词过滤器用于筛查并阻止不当言论，包括辱骂、歧视性语言、色情内容、政治敏感词汇等。
在线游戏：游戏中聊天功能可能被玩家用于发送不当信息，敏感词过滤器可以防止这种行为，维护游戏环境的健康。
企业通信工具：如企业邮箱、即时消息软件等，过滤不恰当的语言，保持专业沟通环境。
新闻媒体和出版物：在发布前审查文章、评论，避免包含违规或敏感信息。
教育平台：确保在线课程讨论区、学生论坛等区域的内容适宜所有年龄层的学生。
招聘广告和简历筛选：自动识别并排除含有性别、种族或其他偏见的描述。
电商平台：监控商品标题、描述和用户评价中的敏感词汇，确保内容合规。
直播和视频平台：实时监控直播间的弹幕和评论，防止不良信息传播。
智能客服与机器人对话：确保AI与用户的互动中不会出现不当言论，维护品牌形象。
政府和公共部门：在新闻发布、政策公告等官方渠道中避免敏感词汇，维护社会稳定和谐。

三、使用方法

一、Maven引入

XML 复制代码

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-word</artifactId>
    <version>0.18.0</version>
</dependency>

二、核心方法

SensitiveWordHelper 作为敏感词的工具类，核心方法如下：


方法	参数	返回值	说明
contains(String)	待验证的字符串	布尔值	验证字符串是否包含敏感词
findFirst(String)	待验证的字符串	字符串	返回字符串中第一个敏感词
findFirst(String, IWordResultHandler)	IWordResultHandler 结果处理类	字符串	返回字符串中第一个敏感词
findAll(String)	待验证的字符串	字符串列表	返回字符串中所有敏感词
findAll(String, IWordResultHandler)	IWordResultHandler 结果处理类	字符串列表	返回字符串中所有敏感词
replace(String)	使用 `*` 替换敏感词	字符串	返回脱敏后的字符串
replace(String, char)	使用指定的 char 替换敏感词	字符串	返回脱敏后的字符串
replace(String, ISensitiveWordReplace)	使用自定义替换策略替换敏感词	字符串	返回脱敏后的字符串

四、更多特性

后续的诸多特性，主要是针对各种针对各种情况的处理，尽可能的提升敏感词命中率。

这是一场漫长的攻防之战。

样式处理

忽略大小写

java 复制代码

final String text = "fuCK the bad words.";
String word = SensitiveWordHelper.findFirst(text);
Assert.assertEquals("fuCK", word);

忽略半角圆角

java 复制代码

final String text = "ｆｕｃｋ the bad words.";

String word = SensitiveWordHelper.findFirst(text);
Assert.assertEquals("ｆｕｃｋ", word);

忽略数字的写法

这里实现了数字常见形式的转换。

java 复制代码

final String text = "这个是我的微信：9⓿二肆⁹₈③⑸⒋➃㈤㊄";

List<String> wordList = SensitiveWordBs.newInstance().enableNumCheck(true).init().findAll(text);
Assert.assertEquals("[9⓿二肆⁹₈③⑸⒋➃㈤㊄]", wordList.toString());

忽略繁简体

java 复制代码

inal String text = "我爱我的祖国和五星紅旗。";

List<String> wordList = SensitiveWordHelper.findAll(text);
Assert.assertEquals("[五星紅旗]", wordList.toString());

忽略英文的书写格式

java 复制代码

final String text = "Ⓕⓤc⒦ the bad words";

List<String> wordList = SensitiveWordHelper.findAll(text);
Assert.assertEquals("[Ⓕⓤc⒦]", wordList.toString());

忽略重复词

java 复制代码

final String text = "ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦ the bad words";

List<String> wordList = SensitiveWordBs.newInstance()
        .ignoreRepeat(true)
        .init()
        .findAll(text);
Assert.assertEquals("[ⒻⒻⒻfⓤuⓤ⒰cⓒ⒦]", wordList.toString());

引导类特性配置

说明

上面的特性默认都是开启的，有时业务需要灵活定义相关的配置特性。

所以 v0.0.14 开放了属性配置。

配置方法

为了让使用更加优雅，统一使用 fluent-api 的方式定义。

用户可以使用 SensitiveWordBs 进行如下定义：

java 复制代码

SensitiveWordBs wordBs = SensitiveWordBs.newInstance()
        .ignoreCase(true)
        .ignoreWidth(true)
        .ignoreNumStyle(true)
        .ignoreChineseStyle(true)
        .ignoreEnglishStyle(true)
        .ignoreRepeat(false)
        .enableNumCheck(false)
        .enableEmailCheck(false)
        .enableUrlCheck(false)
        .enableIpv4Check(false)
        .enableWordCheck(true)
        .numCheckLen(8)
        .wordTag(WordTags.none())
        .charIgnore(SensitiveWordCharIgnores.defaults())
        .wordResultCondition(WordResultConditions.alwaysTrue())
        .init();

final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
Assert.assertTrue(wordBs.contains(text));

配置说明

其中各项配置的说明如下：


序号	方法	说明	默认值
1	ignoreCase	忽略大小写	true
2	ignoreWidth	忽略半角圆角	true
3	ignoreNumStyle	忽略数字的写法	true
4	ignoreChineseStyle	忽略中文的书写格式	true
5	ignoreEnglishStyle	忽略英文的书写格式	true
6	ignoreRepeat	忽略重复词	false
7	enableNumCheck	是否启用数字检测。	false
8	enableEmailCheck	是有启用邮箱检测	false
9	enableUrlCheck	是否启用链接检测	false
10	enableIpv4Check	是否启用IPv4检测	false
11	enableWordCheck	是否启用敏感单词检测	true
12	numCheckLen	数字检测，自定义指定长度。	8
13	wordTag	词对应的标签	none
14	charIgnore	忽略的字符	none
15	wordResultCondition	针对匹配的敏感词额外加工，比如可以限制英文单词必须全匹配	恒为真

核心方法及部分更多特性代码如下：

java 复制代码

import com.github.houbb.sensitive.word.api.IWordReplace;
import com.github.houbb.sensitive.word.bs.SensitiveWordBs;
import com.github.houbb.sensitive.word.core.SensitiveWordHelper;
import com.github.houbb.sensitive.word.support.ignore.SensitiveWordCharIgnores;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

import java.util.List;

@SpringBootTest(classes = SensitiveWordTests.class)
public class SensitiveWordTests {


    @Test
    //检测是否包含敏感词
    public void containsTest() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        boolean contains = SensitiveWordHelper.contains(text);
        System.out.println(contains);
    }

    @Test
    //查找第一个敏感词
    public void findFirstTest() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        String word = SensitiveWordHelper.findFirst(text);
        System.out.println("返回第一个敏感词："+word);
    }

    @Test
    //查找所有敏感词
    public void findAllTest() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        List<String> wordList = SensitiveWordHelper.findAll(text);
        System.out.println("返回所有敏感词："+wordList.toString());
    }

    @Test
    //默认替换策略，替换敏感词
    public void replaceTest() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        String replace = SensitiveWordHelper.replace(text);
        System.out.println("替换敏感词："+replace);
    }

    @Test
    //自定义替换字符，替换敏感词
    public void replaceCharTest() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        String result = SensitiveWordHelper.replace(text, '0');
        System.out.println("替换敏感词："+result);
    }

    @Test
    //自定义替换策略，替换敏感词
    public void replaceTest1() {
        final String text = "五星红旗迎风飘扬，毛主席的画像屹立在天安门前。";
        IWordReplace replace = new MyWordReplace();
        String result = SensitiveWordHelper.replace(text, replace);
        System.out.println("替换敏感词："+result);
    }

    @Test
    //忽略大小写
    public void ignoreCaseTest() {
        final String text = "fuCK the bad words.";
        String word = SensitiveWordHelper.findFirst(text);
        System.out.println("忽略大小写："+word);
        String replace = SensitiveWordHelper.replace(text);
        System.out.println("忽略大小写："+replace);
    }

    @Test
    //忽略半角圆角
    public void ignoreWidthTest() {
        final String text = "ｆｕｃｋ ①Ⓕⓤc⒦ the bad words.";
        String word = SensitiveWordHelper.replace(text);
        System.out.println("忽略半角圆角："+word);
    }

    //邮箱、连续数字、网址 默认不开启 需要手动开启
    @Test
    //过滤邮箱
    public void test() {
        String text= "邮箱 sensitiveword@xx.com";
        String replace = SensitiveWordBs.newInstance().enableEmailCheck(true).init().replace(text);
        System.out.println(replace);
    }

    @Test
    //过滤电话
    public void test1() {
        String text= "电话 12345678901";
        String replace = SensitiveWordBs.newInstance()
                .enableNumCheck(true)
                .numCheckLen(12)//指定数字长度
                .init().replace(text);
        System.out.println(replace);
    }

    @Test
    //过滤网址
    public void test3(){
        String text= "请访问我们的官方网站：https://example.com";
        String replace = SensitiveWordBs.newInstance().enableUrlCheck(true).init().replace(text);
        System.out.println(replace);
    }

    @Test
    //过滤时中间有特殊字符，无法过滤
    public void test4(){
        final String text = "傻@冒，狗+东西,1212";
//        String replace = SensitiveWordHelper.replace(text);
//        System.out.println(replace);
        String replace = SensitiveWordBs.newInstance()
                .charIgnore(SensitiveWordCharIgnores.specialChars())
                .init()
                .replace(text);
        System.out.println(replace);
    }

    @Test
    //复杂语句
    public void test5(){
        final String text = "傻@冒，狗+东西,1212邮箱 sensitiveword@xx.com请访问我们的官方网站：https://example.com电话 12345678901ｆｕｃｋ ①Ⓕⓤc⒦ the bad words.";
        //配置所需的方法   忽略大小写、忽略半角圆角、忽略英文样式、忽略数字、忽略邮箱、忽略网址、忽略电话
        String replace = SensitiveWordBs.newInstance()
                .charIgnore(SensitiveWordCharIgnores.specialChars())
                .ignoreEnglishStyle(true)
                .enableEmailCheck(true)
                .init()
                .replace(text);
        System.out.println(replace);
    }

}

自定义敏感词替换策略中的MyWordReplace代码如下：

java 复制代码

package com.beiyou;
iWordResult.startIndex();
            for (int i = 0; i < length; i++) {
                stringBuilder.append('*');
            }
        }
    }
}

如果还有问题可以点击下面网址（可能会打不开，多尝试几次）

houbb/sensitive-word: 👮‍♂️The sensitive word tool for java.(敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件，附带繁体简体互换，支持全角半角互换，汉字转拼音，模糊搜索等功能。) (github.com)

敏感词过滤工具

一、简介

二、应用场景

三、使用方法

四、更多特性

样式处理

忽略大小写

忽略半角圆角

忽略数字的写法

忽略繁简体

忽略英文的书写格式

忽略重复词

更多检测策略

邮箱检测

连续数字检测

网址检测

IPV4 检测

引导类特性配置

说明

配置方法

配置说明