大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
叶 落1 天前
[Java 基础]正则表达式
java·正则表达式·java 基础
fs哆哆3 天前
在VB.net中,用正则表达式方法清除干扰符号方法
开发语言·正则表达式·c#·.net
奔跑吧邓邓子4 天前
正则表达式:开启文本处理的魔法之门
正则表达式·文本处理·高效应用
相知-.5 天前
shell正则表达式
linux·运维·正则表达式
面朝大海,春不暖,花不开7 天前
使用 Python 正则表达式实现文本替换与电话号码规范化
python·mysql·正则表达式
前端小白从0开始7 天前
关于前端常用的部分公共方法(二)
前端·vue.js·正则表达式·typescript·html5·公共方法
岁忧7 天前
LeetCode 高频 SQL 50 题(基础版)之 【高级字符串函数 / 正则表达式 / 子句】· 下
sql·leetcode·正则表达式
岁忧7 天前
MySQL中【正则表达式】用法
数据库·mysql·正则表达式
htj109 天前
C# 使用正则表达式
正则表达式·c#
ZZZKKKRTSAE9 天前
快速上手Linux全局搜索正则表达式(grep)
linux·服务器·正则表达式