go实现敏感词过滤

go敏感词过滤

实现思路:

1.敏感词库加载

2.敏感词匹配

3.敏感词替换

敏感词库

这里使用的的是敏感词库

下载后将敏感词处理成一个字符串切片加载到内存中

go 复制代码
//go:embed sensitive_words_lines.txt
var sensitiveWordsFile string

func InitSensitiveWords() (sensitiveWords []string) {
	scanner := bufio.NewScanner(strings.NewReader(sensitiveWordsFile))
	for scanner.Scan() {
		line := scanner.Text()
		sensitiveWords = append(sensitiveWords, line)
	}
	logrus.Info("SensitiveWords加载成功")
	return
}

敏感词匹配

我选择使用的是AhoCorasick算法进行匹配

算法简介:

​ Aho-Corasick算法是一种多模式字符串匹配算法,由Alfred V. Aho和Margaret J. Corasick在1975年提出。该算法旨在有效地在一个文本串中同时搜索多个模式串。它通过构建一个有限状态机(实际上是一个特殊的前缀树或Trie)来实现高效的搜索过程,这个状态机能够一次性处理所有模式串的搜索请求。

算法原理

  1. 构建Trie树:首先将所有的模式串插入到一个Trie树(也称作字典树)中。每个节点代表一个字符,从根节点开始,沿着路径向下可以找到对应的模式串。
  2. 添加失败指针:接下来为Trie树中的每个节点计算"失败指针"(failure link)。失败指针的作用类似于KMP算法中的部分匹配表,用于当当前字符不匹配时跳转到另一个可能的匹配位置。具体来说,对于某个节点n,如果从根到n表示的字符串是s,那么n的失败指针指向的是最长的、既是s的一个后缀又是某个模式串前缀的字符串所对应的节点。这一步骤确保了在搜索过程中遇到不匹配字符时,算法能够快速地重新尝试匹配而不需要回溯。
  3. 模式匹配:使用构建好的自动机对目标文本进行扫描。从根节点开始,根据当前读取的字符移动到下一个节点;如果不存在对应边,则跟随失败指针直到找到一个存在对应边的节点或者回到根节点。每当到达一个终止节点(即表示一个完整模式串的节点),就报告一次匹配。

特点与优势

  • 高效性:Aho-Corasick算法的时间复杂度为O(n + m + z),其中n是文本长度,m是所有模式串的总长度,z是输出结果的数量。这种效率使得它非常适合需要在大量文本中查找多个关键字的应用场景。
  • 一次性处理多个模式串:相比于逐一应用单模式匹配算法(如KMP),Aho-Corasick算法只需遍历文本一次即可完成所有模式串的匹配工作。
  • 广泛的应用领域:包括但不限于文本编辑器中的查找功能、网络入侵检测系统(NIDS)、生物信息学中的DNA序列分析等。

第三方AhoCorasick库

https://github.com/cloudflare/ahocorasick

使用时需要预先加载词库到算法中

go 复制代码
func InitAhoCorasick() (ahoCorasick *ahocorasick.Matcher) {
	ahoCorasick = ahocorasick.NewStringMatcher(global.SensitiveWords)
	logrus.Info("敏感词匹配AhoCorasick加载成功")
	return
}

敏感词匹配和替换

go 复制代码
// ReplaceSensitiveWords 替换敏感词
func ReplaceSensitiveWords(text string, replaceWord string) string {
	// 将匹配位置转换为区间
	//hits := ahocorasick.NewStringMatcher(global_gse.SensitiveWords).Match([]byte(text))
	hits := AhoCorasick.Match([]byte(text))
	for _, val := range hits {
		oldReplaceWord := global.SensitiveWords[val]
		text = strings.Replace(text, oldReplaceWord, strings.Repeat(replaceWord, len([]rune(oldReplaceWord))), -1)
	}
	return text
}
//使用
text = ReplaceSensitiveWords(text, "*")

完整代码

go 复制代码
//go:embed files/sensitive_words_lines.txt
var sensitiveWordsFile string

func InitSensitiveWords() (sensitiveWords []string) {
	scanner := bufio.NewScanner(strings.NewReader(sensitiveWordsFile))
	for scanner.Scan() {
		line := scanner.Text()
		sensitiveWords = append(sensitiveWords, line)
	}
	logrus.Info("SensitiveWords加载成功")
	return
}

func InitAhoCorasick() (ahoCorasick *ahocorasick.Matcher) {
	ahoCorasick = ahocorasick.NewStringMatcher(global.SensitiveWords)
	logrus.Info("敏感词匹配AhoCorasick加载成功")
	return
}

// ReplaceSensitiveWords 替换敏感词
func ReplaceSensitiveWords(text string, replaceWord string) string {
	// 将匹配位置转换为区间
	//hits := ahocorasick.NewStringMatcher(global_gse.SensitiveWords).Match([]byte(text))
	hits := AhoCorasick.Match([]byte(text))
	for _, val := range hits {
		oldReplaceWord := SensitiveWords[val]
		text = strings.Replace(text, oldReplaceWord, strings.Repeat(replaceWord, len([]rune(oldReplaceWord))), -1)
	}
	return text
}


func main(){
    text:="xxx"
    SensitiveWords:=InitSensitiveWords()
    AhoCorasick:=InitAhoCorasick()
    text:ReplaceSensitiveWords(text,"*")
    fmt.Println(text)
}
相关推荐
liuyao_xianhui16 分钟前
四数之和_优选算法(C++)双指针法总结
java·开发语言·c++·算法·leetcode·职场和发展
blank@l26 分钟前
Python类和对象----实例属性,类属性(这是我理解类和对象最透彻的一次!!)
开发语言·python·python接口自动化基础·python类和对象·python实例属性·python类属性·类属性和实例属性的区别
超奇电子33 分钟前
高斯包络调制正弦波的Python代码
开发语言·python
IT_陈寒36 分钟前
React Hooks 实战:这5个自定义Hook让我开发效率提升了40%
前端·人工智能·后端
开始学java44 分钟前
异常机制-异常分类
后端
小虚竹and掘金1 小时前
Claude Sonnet 4.5 编程王位世袭罔替!全网首发最全1.3万字详细测评,国内直接使用
后端
Siren_dream1 小时前
python进阶_Day2
开发语言·python
珹洺1 小时前
Java-Spring入门指南(十二)SpringAop的三种实现方式
java·开发语言·spring
做运维的阿瑞1 小时前
使用 Python 打造一个轻量级系统信息查看器
开发语言·后端·python·系统架构
磨十三1 小时前
C++ 中的类型双关、union 与类型双关:让一块内存有多个“名字”
开发语言·c++