大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
梦里不知身是客112 天前
正则表达式常见的介绍
前端·javascript·正则表达式
狮智先生3 天前
【编程实践】正则表达式的使用
正则表达式
MM_MS5 天前
正则表达式超详细版
正则表达式
m0_488777655 天前
正则表达式与文本处理器以及命令小工具
正则表达式·命令小工具
青衫码上行7 天前
【Java Web学习 | 第14篇】JavaScript(8) -正则表达式
java·前端·javascript·学习·正则表达式
beijingliushao7 天前
95-Python爬虫-正则表达式
爬虫·python·正则表达式
前端 贾公子8 天前
正则表达式(/g修饰符)踩坑
正则表达式
q***84578 天前
Java进阶,时间与日期,包装类,正则表达式
java·mysql·正则表达式
非得登录才能看吗?15 天前
正则表达式入门
正则表达式
小飞大王66615 天前
JavaScript基础知识总结(四):常见内置构造函数,正则表达式,作用域与闭包
前端·javascript·正则表达式