【自然语言处理】文本数据预处理

007的米奇妙妙屋2024-08-25 16:40

学习list：

正则表达式

分词

词性标注

词干提取与词形还原

命名实体识别

文本的数据增强

正则表达式：

假设有一天，你的上司给你几百个 txt 文本，并且布置了一个任务，找出文本中所有出现的身份证号以及电话号码，并且要求在一个小时内完成。这时候该怎么办呢？总不可能肉眼一个个地去找吧，太费时了！在这里，正则表达式就派上用场了。学会了正则表达式，你就能在 20 分钟内完成此任务。

正则表达式，又称规则表达式，英语称为 Regular Expression，通常被用来检索、替换那些符合某个模式(规则)的文本，例如在以上任务中匹配身份证号或者电话号码，是在文本预处理过程中常用的技术。

那么，正则表达式怎么写呢？在这之前，让我们首先来熟悉一些基本的正则表达式的语法：

. ：能够匹配除换行符 \n 以外的任意单个字符。

\w ：与单个字母数字字符匹配。

\W ：与单个非字母数字字符匹配。

\d ：与单个数字匹配。

\D ：与单个非数字匹配。

\s ：与单个空格字符（空格，换行符，返回符，制表符，表格）匹配。

\S ：与任何非空格字符匹配。

\t ：匹配单个 tab 符。

\n ：匹配单个换行符。

\r ：匹配单个回车符。

^ 和 $ ：分别匹配字符串的开头或结尾。