大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
长城20244 天前
HTML5中表单的pattern属性解析
前端·正则表达式·html·html5·pattern·pattern属性·pattern正则表达式
Gss7775 天前
Linux 正则表达式详解(基础 + 扩展 + 实操)
linux·运维·正则表达式
黑客思维者5 天前
正则表达式(九)网络安全:检测SQL注入攻击 + 检测XSS跨站脚本 + 扫描敏感信息泄露 + 匹配暴力破解异常IP
sql·web安全·正则表达式
黎雁·泠崖5 天前
Java常用类核心详解(七):正则表达式 Regex 从入门到实战
java·开发语言·正则表达式
秀儿还能再秀5 天前
正则表达式核心语法 + Python的 re 库中常用方法
python·正则表达式
xcLeigh5 天前
Python入门:Python3 正则表达式全面学习教程
python·学习·正则表达式·教程·python3
数据知道5 天前
MongoDB 正则表达式查询:在 MongoDB 中实现模糊搜索与索引优化陷阱
数据库·mongodb·正则表达式
A懿轩A5 天前
【Java 基础编程】Java 正则表达式实战:Pattern/Matcher、元字符与常用正则,验证与提取必备
java·开发语言·正则表达式
石牌桥网管5 天前
正则表达式:匹配不包含指定字符串的文本
java·javascript·python·正则表达式·go·php