大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
艾伦~耶格尔2 天前
Java 正则表达式详解
java·开发语言·学习·正则表达式
不会写算法的小王3 天前
正则表达式
正则表达式
kuiini4 天前
python学习-08【正则表达式】
python·学习·正则表达式
敲代码不忘补水4 天前
Python 正则表达式详解:从基础匹配到高级应用
java·python·正则表达式
wclass-zhengge4 天前
MySQL篇(高级字符串函数/正则表达式)(持续更新迭代)
android·mysql·正则表达式
立黄昏粥可温5 天前
Python 从入门到实战17(正则表达式操作)
python·正则表达式
shyuu_7 天前
Linux 三种方式查看和设置主机名
linux·运维·服务器·正则表达式·云计算·运维开发
一只会敲代码的小灰灰8 天前
python学习第七节:正则表达式
python·学习·正则表达式
风雨后灬见彩虹8 天前
正则表达式
正则表达式
鸽芷咕8 天前
【Python知识宝库】正则表达式在Python中的应用:字符串模式匹配利器
开发语言·python·正则表达式