HIVE SQL中替换不可见字符的正则表达式

一.替换字符串中的空白字符

对于剔除字符串首尾的空格,使用较多的是trim()ltrim()rtrim()函数,但是他们无法去除字符串中间的空格。

这个时候通常会使用正则表达式来替换字符串中的空白字符\s表示匹配任何空白字符,包括空格、制表符、换页符等等, 等价于[ \f\n\r\t\v]。

c 复制代码
select regexp_replace('  abcd  ef  g ','\\s+','');

返回结果:

'abcdefg'

二.替换字符串中的无法解析的非法字符

在实际清洗过程中,发现即使使用了'\\s+'正则进行替换后,仍旧出现字符串中存在不可见字符的情况。这往往是因为上有数据在解析过程中未将无法解析的非法字符剔除掉。

这个时候可以使用regexp_replace(col_name,'[\\x00-\\x08\\x0B-\\x0C\\x0E-\\x1F]+|\\s+','')进一步对不可见字符进行处理。

相关推荐
青云交39 分钟前
大数据新视界 -- Hive 数据仓库:构建高效数据存储的基石(下)(2/ 30)
大数据·数据仓库·hive·数据安全·数据分区·数据桶·大数据存储
努力算法的小明1 小时前
SQL 复杂查询
数据库·sql
白云如幻2 小时前
SQL99版链接查询语法
数据库·sql·mysql
爱吃烤鸡翅的酸菜鱼3 小时前
MySQL初学之旅(4)表的设计
数据库·sql·mysql·database
永乐春秋4 小时前
WEB-通用漏洞&SQL注入&CTF&二次&堆叠&DNS带外
数据库·sql
zwjapple7 小时前
typescript里面正则的使用
开发语言·javascript·正则表达式
Yz98768 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
lzhlizihang8 小时前
python如何使用spark操作hive
hive·python·spark
武子康8 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康8 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql