大数据处理 正则表达式去除特殊字符 提取中文英文数字

在文本处理中,经常会碰到含有特殊字符的字符串。

比如用户昵称,

小红书文案,等等 都包含了大量表情特殊字符。

这些特殊字符串在ETL处理过程中,经常会引起程序报错,导致致命错误,程序崩溃;或者导致数据不准确。

所以ETL中首先要清洗处理掉这些特殊字符。

使用正则表达式 能起到很好的效果

c 复制代码
[a-zA-Z0-9\u4e00-\u9fa5]+

提取英文字符:[a-zA-Z]+

提取数字:[0-9]+

提取中文:[\u4e00-\u9fa5]+

(?!_)  不能以_开头
 
(?!.*?_$)  不能以_结尾
 
相关推荐
PythonicCC15 小时前
Python正则表达式
python·正则表达式
木子杳衫2 天前
【Python】LEGB作用域 + re模块 + 正则表达式
数据库·python·正则表达式
MediaTea2 天前
Python 库手册:re 正则表达式模块
开发语言·python·正则表达式
m0dw5 天前
正则表达式梳理
正则表达式
mortimer6 天前
Python 正则替换陷阱:`\1` 为何变成了 `\x01`?
python·正则表达式
666HZ6666 天前
正则表达式使用示例
javascript·vue.js·正则表达式
一百天成为python专家7 天前
python正则表达式(小白五分钟从入门到精通)
数据库·python·正则表达式·pycharm·python3.11
山烛8 天前
小白学Python,标准库篇——随机库、正则表达式库
开发语言·python·正则表达式·random·re·随机库·正则表达式库
小王爱学人工智能8 天前
正则表达式库和第三方库
正则表达式
之歆9 天前
Python-正则表达式-信息提取-滑动窗口-数据分发-文件加载及分析器-浏览器分析-学习笔记
python·学习·正则表达式