大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
前端世界3 天前
Python 正则表达式实战:用 Match 对象轻松解析拼接数据流
python·正则表达式·php
Edward.W4 天前
别再和正则表达式死磕了!这套AI工具集让你的开发效率翻倍⚙️[特殊字符]
人工智能·正则表达式
beijingliushao4 天前
58-正则表达式
数据库·python·mysql·正则表达式
雷达学弱狗4 天前
正则表达式,字符串的搜索与替换
正则表达式
良木林4 天前
JS中正则表达式的运用
前端·javascript·正则表达式
ComputerInBook4 天前
C++编程语言:标准库:第37章——正则表达式(Bjarne Stroustrup)
开发语言·c++·正则表达式
雷达学弱狗4 天前
正则表达式与转义符的区别。注意输入的东西经过了一次转义,一次正则表达式。\\转义是单斜杠\\在正则表达式也是单斜杠所以\\\\经过两道门才是字符单斜杠
正则表达式
Zzz_睡不醒5 天前
JS(正则表达式)
javascript·正则表达式·c#
啊啊啊啊8435 天前
函数,数组与正则表达式
前端·chrome·正则表达式
MediaTea5 天前
Python:正则表达式
开发语言·c++·python·正则表达式