SQL常用数据清洗语句

数据清洗:发现并纠正数据文件里的数据错误和不一致性,让数据达到分析要求的过程。

运用 SQL 进行数据清洗时,可借助多种语句和函数来处理数据中的缺失值、重复值、异常值以及格式错误等问题。

1. 处理缺失值

数据中某些变量的值为空的情况,可采用删除包含缺失值的记录、用合适的值(如平均值、中位数等)来填充的方法。

删除包含缺失值的记录

sql 复制代码
DELETE FROM table_name
WHERE column_name IS NULL;

用特定值填充缺失值

sql 复制代码
UPDATE table_name
SET column_name = 'default_value'
WHERE column_name IS NULL;

用平均值填充缺失值

sql 复制代码
UPDATE table_name
SET column_name = (SELECT AVG(column_name) FROM table_name)
WHERE column_name IS NULL;

2. 处理重复值

数据中存在的完全相同或者部分字段相同的记录,可以使用 DISTINCT 关键字来去除重复值。

使用 DISTINCT 关键字查询无重复的数据

sql 复制代码
SELECT DISTINCT column1, column2
FROM table_name;

3. 处理异常值

数据中偏离正常范围的值,可以通过定义合理的范围来筛选出异常值,然后进行删除或者修正。

sql 复制代码
-- 删除价格小于 0 或者大于 1000 的异常记录
DELETE FROM products
WHERE price < 0 OR price > 1000;

4. 处理格式错误

数据格式不符合预期,例如日期格式错误、字符串长度不符合要求等。可以使用字符串函数和日期函数来修正格式错误。

转换日期格式

sql 复制代码
-- 将日期从 'YYYY-MM-DD' 格式转换为 'DD/MM/YYYY' 格式
SELECT DATE_FORMAT(date_column, '%d/%m/%Y')
FROM table_name;

去除字符串前后的空格

sql 复制代码
SELECT TRIM(column_name)
FROM table_name;

处理大小写不一致

sql 复制代码
-- 将所有姓名转换为大写
SELECT UPPER(name)
FROM customers;
相关推荐
Deamon Tree几秒前
如何保证缓存与数据库更新时候的一致性
java·数据库·缓存
大G的笔记本9 分钟前
MySQL 中的 行锁(Record Lock) 和 间隙锁(Gap Lock)
java·数据库·mysql
洲覆38 分钟前
go-mysql-transfer 伪装从库实现 MySQL 到 Redis 数据同步(完整配置)
数据库·redis·mysql·golang
谅望者1 小时前
SQL 自连接详解:当数据表需要与自己对话(组织层级实战)
数据库·sql·mysql·oracle·database
姚远Oracle ACE1 小时前
解读 “SQL ordered by Physical Reads (UnOptimized)“
数据库·sql·oracle
山峰哥1 小时前
KingbaseES 表空间与模式优化策略深度研究报告
开发语言·数据结构·数据库·oracle·深度优先
九转苍翎1 小时前
深入解析MySQL(6)——存储过程、游标与触发器
数据库·mysql
武子康1 小时前
Java-164 MongoDB 认证与权限实战:单实例与分片集群 整体认证配置实战 最小化授权/错误速查/回滚剧本
java·数据库·分布式·mongodb·性能优化·系统架构·nosql
金仓拾光集1 小时前
《MongoDB 重建索引要锁库?金仓却能边跑边修》
数据库·mongodb·kingbase·kingbasees·数据库平替用金仓·金仓数据库
金仓拾光集1 小时前
金仓数据库平替MongoDB:医共体数据互通的高效安全之道
数据库·安全·mongodb·kingbase·kingbasees·数据库平替用金仓·金仓数据库