大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
之歆4 小时前
Day24_JavaScript正则表达式与性能优化实战:从入门到精通
javascript·性能优化·正则表达式
羑悻的小杀马特1 天前
【动态规划篇】正则表达式与通配符:开启代码匹配的赛博奇幻之旅
c++·算法·leetcode·正则表达式
踏过山河,踏过海1 天前
正则表达式
正则表达式
水木流年追梦2 天前
大模型入门-大模型优化方法1
人工智能·学习·算法·机器学习·正则表达式
我是标同学2 天前
qt的正则表达式使用
正则表达式
deepin_sir2 天前
19 - 正则表达式
python·正则表达式
清风一徐2 天前
python--正则表达式
正则表达式
来恩10033 天前
Java正则表达式
正则表达式
水木流年追梦4 天前
大模型入门-大模型分布式训练2
开发语言·分布式·python·算法·正则表达式·prompt
水木流年追梦4 天前
大模型入门-大模型分布式训练1
开发语言·分布式·python·算法·正则表达式·prompt