在文本处理中,经常会碰到含有特殊字符的字符串。
比如用户昵称,
小红书文案,等等 都包含了大量表情特殊字符。
这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。
所以ETL中首先要清洗处理掉这些特殊字符。
使用正则表达式 能起到很好的效果
c
[a-zA-Z0-9\u4e00-\u9fa5]+
提取英文字符:[a-zA-Z]+
提取数字:[0-9]+
提取中文:[\u4e00-\u9fa5]+
(?!_) 不能以_开头
(?!.*?_$) 不能以_结尾