常用数据处理

主要是四种方式：正则表达式、AC自动机、困惑度过滤低质文本、最小哈希算法实现文本去重

1. 正则表达式，去做一些模式匹配

ex：

论文的评审内容有时会存在大量列举reference（参考文献）的情况

这些reference会占据大量的评审内容篇幅

且多数情况下仅为参考文献的标题、年份等无意义信息

比如将数据集中，每条评审中reference部分给替换成""

2. AC自动机词库匹配

应用场景：

从大量文本中匹配出预设词库中的敏感词。
从大量文本中判断是否存在预设词库中的某些词。

传统的低效做法是：遍历词库，对于词库中每个词都在目标文本中查询一遍。

AC自动机的方法是，对于词库中的内容构建一个前缀树，对于目标文本只需要过一遍就能知道是否存在词库中的词

EX:

构建树

通过这些模式字符串的公共前缀来进行构造

在相应节点定义接收态。

每当能构成一个模式，那么这个模式对应的最后一个节点就是接收态，图中红色就是接收态，

每个接收态会存储其对应的回溯长度

3.为树的每个节点定义失败路径机制。

失败路径机制：

位于当前节点无法再进一步往下匹配时，将指向其"节点路径的最大后缀同值节点"（如下图的橙色箭头），

如果不存在"节点路径的最大后缀同值节点"，则指向根节点（如下图的紫色箭头代表指向根节点）。

例如"she"最大后缀就是he，刚好树种有对应其他位置的he，就是他们的同值节点，比如当she走完之后发现没法再进行匹配时，就会调到另一个e上继续做匹配

然后还会拷贝失败路径对应接受态，也就是另一个e的回溯长度，2

这样有个好处，会把长路径中蕴含的短路径（模式）也可以记录到

比如在匹配aasherhsy时，前两个a，匹配不到，均是从根节点回到自身，从s开始，一直匹配到she，然后回溯，此时到e时由于存储了两个回溯长度，一个回溯三次，一个回溯两次，所以把she 、he都会算进去，she后匹配不到r，然后就跳转到最大后缀同值节点上，就是另一个e，再往下，刚好可以匹配到r，r是接收态，所以会再次回溯，her也匹配到了，r往后匹配不到了，也没有最大后缀同值节点，于是就跳转回根节点，以此类推。