大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
技术小结-李爽2 小时前
正则表达式(Regular Expression,简称 Regex)
正则表达式
G皮T16 小时前
【Python Cookbook】字符串和文本(五):递归下降分析器
数据结构·python·正则表达式·字符串·编译原理·词法分析·语法解析
___波子 Pro Max.3 天前
正则表达式和通配符
正则表达式
北极象4 天前
用C实现一个最简单的正则表达式引擎
c语言·正则表达式·php
学吧别真挂了4 天前
正则表达式从入门到飞升:覆盖90%前端场景的秘籍
前端·javascript·正则表达式
bst@微胖子4 天前
正则表达式示例集合
正则表达式
智能编织者6 天前
深入解析 Python 正则表达式:全面指南与实战示例
python·mysql·正则表达式
課代表6 天前
VBA 中正则表达式使用指南
数据库·mysql·正则表达式·excel
南隅。7 天前
【C++】基础3——正则表达式,静态多态(函数重载和模板),异常处理
开发语言·c++·正则表达式
BabyFish137 天前
notepad++ 正则表达式
正则表达式·notepad++