分享 GitHub 上的敏感词汇工具类:sensitive-word

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~

🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志

🎐 个人CSND主页------Micro麦可乐的博客

🐥《Docker实操教程》专栏以最新的Centos版本为基础进行Docker实操教程,入门到实战

🌺《RabbitMQ》本专栏主要介绍使用JAVA开发RabbitMQ的系列教程,从基础知识到项目实战

🌸《设计模式》专栏以实际的生活场景为案例进行讲解,让大家对设计模式有一个更清晰的理解

如果文章能够给大家带来一定的帮助!欢迎关注、评论互动~

分享 GitHub 上的敏感词汇工具类:sensitive-word

前言

在网络世界中,对于敏感词汇的过滤是保障用户体验和维护网络环境的一项基础工作。常见的比如社交平台、论坛、聊天应用等场景,涉及到用户言论都需要考虑内容的敏感性处理,本文将为大家介绍一款GitHub上开源好用的好用敏感词工具sensitive-word

目前已经有1.4KStar,项目地址 : https://github.com/houbb/sensitive-word

介绍sensitive-word

sensitive-word 是基于 DFA 算法实现的高性能敏感词工具。目前敏感词库内容收录 6W+且不断优化更新。

特性

  • 6W+ 词库,且不断优化更新

  • 基于 fluent-api 实现,使用优雅简洁

  • 基于 DFA 算法,性能为 7W+ QPS,应用无感

  • 支持敏感词的判断、返回、脱敏等常见操作

  • 支持常见的格式转换

  • 全角半角互换、英文大小写互换、数字常见形式的互换、中文繁简体互换、英文常见形式的互换、忽略重复词等

  • 支持敏感词检测、邮箱检测、数字检测、网址检测等

  • 支持自定义替换策略

  • 支持用户自定义敏感词和白名单

  • 支持数据的数据动态更新(用户自定义),实时生效

  • 支持敏感词的标签接口

  • 支持跳过一些特殊字符,让匹配更灵活

SpringBoot使用sensitive-word

在开发java项目中,想使用sensitive-word其实非常简单,只需要maven引入依赖就可以当作一个工具类调用其方法即可使用

maven引入依赖

java 复制代码
<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-word</artifactId>
    <version>0.12.0</version>
</dependency>

SensitiveWordHelper 作为敏感词的工具类,核心方法如下:

接下来我们编写相关测试类,来测试对应方法

java 复制代码
public class Test {

    public static void main(String[] args) {
        //是否有敏感词存在
        String text = "五星红旗迎风飘扬,毛主席的画像屹立在天安门前。";
		Assert.assertTrue(SensitiveWordHelper.contains(text));

		//返回第一个敏感词
		String word = SensitiveWordHelper.findFirst(text);
		Assert.assertEquals("五星红旗", word);

        //返回所有敏感词
        List<String> wordList = SensitiveWordHelper.findAll(text);
		Assert.assertEquals("[五星红旗, 毛主席, 天安门]", wordList.toString());

        //默认的替换策略
		String result = SensitiveWordHelper.replace(text);
		Assert.assertEquals("****迎风飘扬,***的画像屹立在***前。", result);

        //指定替换的内容
		String result = SensitiveWordHelper.replace(text, '0');
		Assert.assertEquals("0000迎风飘扬,000的画像屹立在000前。", result);
    }
}

自定义替换策略

场景说明:有时候我们希望不同的敏感词有不同的替换结果。比如【游戏】替换为【电子竞技】,【失业】替换为【灵活就业】

java 复制代码
/**
 * 自定替换策略
 * @since 0.2.0
 */
@Test
public void defineReplaceTest() {
    final String text = "五星红旗迎风飘扬,毛主席的画像屹立在天安门前。";

    ISensitiveWordReplace replace = new MyWordReplace();
    String result = SensitiveWordHelper.replace(text, replace);

    Assert.assertEquals("国家旗帜迎风飘扬,教员的画像屹立在***前。", result);
}
java 复制代码
public class MyWordReplace implements IWordReplace {

    @Override
    public void replace(StringBuilder stringBuilder, final char[] rawChars, IWordResult wordResult, IWordContext wordContext) {
        String sensitiveWord = InnerWordCharUtils.getString(rawChars, wordResult);
        // 自定义不同的敏感词替换策略,可以从数据库等地方读取
        if("五星红旗".equals(sensitiveWord)) {
            stringBuilder.append("国家旗帜");
        } else if("毛主席".equals(sensitiveWord)) {
            stringBuilder.append("教员");
        } else {
            // 其他默认使用 * 代替
            int wordLength = wordResult.endIndex() - wordResult.startIndex();
            for(int i = 0; i < wordLength; i++) {
                stringBuilder.append('*');
            }
        }
    }
}

我们针对其中的部分词做固定映射处理,其他的默认转换为 *

敏感词工具类的优缺点总结

优点

  • 高效性: 敏感词的存储和检测采用了高效的数据结构和算法,能够在很短的时间内完成检测。
  • 易扩展: Trie 树的结构使得添加、删除敏感词非常方便,同时 AC 自动机算法保证了高效的匹配。

缺点

  • 内存占用: 敏感词库的存储需要一定的内存,随着敏感词数量的增加,内存占用也会相应增加。

结语

GitHub 上的 sensitive-word 工具类是一个功能强大且高效的敏感词汇检测工具。通过简单的引入测试相信大家已经使用方法有了一定了解,这样我们可以在项目中更好地保障用户信息的安全,维护良好的网络环境

相关推荐
Tisfy4 小时前
Github - 如何提交一个带有“verified”标识的commit
git·ssh·github·ssh key·gpg
tekin5 小时前
github codespaces推送镜像时unauthorized: access token has insufficient scopes 解决方法
docker·github·login·codespaces·docker.io
油泼辣子多加5 小时前
2024年12月31日Github流行趋势
github
梓羽玩Python10 小时前
超酷的AI应用开发神器!1月内新增了5K Star!AI时代下开发者的“瑞士军刀”。
人工智能·github
油泼辣子多加1 天前
2024年12月30日Github流行趋势
github
华纳云IDC服务商1 天前
什么是递归解析服务器?它有什么特点
运维·服务器·github
小龙1 天前
本地创建了一个 Git 仓库推送到GitHub中
git·github·远程连接·团队协作
北城笑笑1 天前
GitLab 服务变更提醒:中国大陆、澳门和香港用户停止提供服务(GitLab 服务停止)
gitee·gitlab·github
王伯爵1 天前
git设置项目远程仓库指向github的一个仓库
git·github
编程洪同学1 天前
Jenkins 中自动化部署 Spring Boot 项目
java·spring boot·gitee·自动化·github·jenkins