大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
小糖学代码4 天前
LLM系列:1.python入门:16.正则表达式与文本处理 (re)
人工智能·pytorch·python·深度学习·神经网络·正则表达式
Irene19914 天前
(课堂笔记)SQL 临时表、视图、正则表达式
正则表达式·视图·临时表
2301_800976935 天前
正则表达式
开发语言·python·正则表达式
学会去珍惜5 天前
c语言“或”符号
正则表达式·编程语言·文件操作·并发编程·文本处理
计算机安禾6 天前
【Linux从入门到精通】第27篇:文本处理三剑客(上)——grep 正则表达式实战
linux·运维·正则表达式
zl_dfq11 天前
服务器设计 之 【正则表达式及C++正则库的简介与使用】
正则表达式
RNEA ESIO12 天前
SQL中的REGEXP正则表达式使用指南
数据库·sql·正则表达式
研☆香14 天前
聊一聊js中的正则表达式的应用
前端·javascript·正则表达式
麦芽糖021915 天前
python进阶六 正则表达式
android·python·正则表达式
Watermelo61717 天前
理解 JavaScript 中的“ / ”:路径、资源与目录、nginx配置、请求、转义的那些事
前端·javascript·vue.js·chrome·nginx·正则表达式·seo