大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
kcuwu.2 天前
Python 正则表达式从入门到实战
数据库·python·正则表达式
羊小蜜.2 天前
Mysql 07: 正则表达式查询(REGEXP)全解
数据库·mysql·正则表达式
Dxy12393102162 天前
正则表达式如何匹配提取文章日期
数据库·mysql·正则表达式
Dxy12393102165 天前
Python正则表达式判断姓名:详细解析
python·mysql·正则表达式
一个小猴子`6 天前
快速了解正则表达式
正则表达式
禾小西7 天前
Java中使用正则表达式核心解析
java·python·正则表达式
Amumu121387 天前
Js:正则表达式(一)
开发语言·javascript·正则表达式
榴莲omega7 天前
正则表达式入门与实战指南
javascript·正则表达式·js八股
披着羊皮不是狼7 天前
正则表达式(Regular Expression) 简明指南
正则表达式
Chen--Xing7 天前
Python -- 正则表达式
python·正则表达式·数据分析·数据脱敏·2025年能源网络安全大赛