大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
[J] 一坚7 小时前
Shell 脚本解锁 curl/iptables/Nginx 日志分析等实战用法
linux·服务器·正则表达式·系统架构·自动化
Dxy123931021611 小时前
Python的正则表达式入门:从小白到能手
服务器·python·正则表达式
realhuizhu1 天前
是猫踩键盘还是乱码?不,这是你刚写的正则表达式
正则表达式·regex·代码质量·开发效率·ai编程助手
聊天QQ:180809516 天前
探索A*、JPS+算法在多机器人与单机器人场景下结合DWA的改进与对比
正则表达式
qq_251533597 天前
如何使用 Python 正则表达式去除空格/制表符/换行符?
开发语言·python·正则表达式
代码续发7 天前
正则表达式小记
正则表达式
GISer_Jing7 天前
Showdown解析策略:正则替换的利与弊
前端·正则表达式
BD_Marathon8 天前
【JavaWeb】JS_了解正则表达式
正则表达式
十一.3668 天前
85-90 正则表达式的简介,正则语法,字符串和正则相关的方法,正则表达式语法
正则表达式
刺客xs8 天前
MySQL数据库----通配符,正则表达式
数据库·mysql·正则表达式