SQL常用数据清洗语句

数据清洗:发现并纠正数据文件里的数据错误和不一致性,让数据达到分析要求的过程。

运用 SQL 进行数据清洗时,可借助多种语句和函数来处理数据中的缺失值、重复值、异常值以及格式错误等问题。

1. 处理缺失值

数据中某些变量的值为空的情况,可采用删除包含缺失值的记录、用合适的值(如平均值、中位数等)来填充的方法。

删除包含缺失值的记录

sql 复制代码
DELETE FROM table_name
WHERE column_name IS NULL;

用特定值填充缺失值

sql 复制代码
UPDATE table_name
SET column_name = 'default_value'
WHERE column_name IS NULL;

用平均值填充缺失值

sql 复制代码
UPDATE table_name
SET column_name = (SELECT AVG(column_name) FROM table_name)
WHERE column_name IS NULL;

2. 处理重复值

数据中存在的完全相同或者部分字段相同的记录,可以使用 DISTINCT 关键字来去除重复值。

使用 DISTINCT 关键字查询无重复的数据

sql 复制代码
SELECT DISTINCT column1, column2
FROM table_name;

3. 处理异常值

数据中偏离正常范围的值,可以通过定义合理的范围来筛选出异常值,然后进行删除或者修正。

sql 复制代码
-- 删除价格小于 0 或者大于 1000 的异常记录
DELETE FROM products
WHERE price < 0 OR price > 1000;

4. 处理格式错误

数据格式不符合预期,例如日期格式错误、字符串长度不符合要求等。可以使用字符串函数和日期函数来修正格式错误。

转换日期格式

sql 复制代码
-- 将日期从 'YYYY-MM-DD' 格式转换为 'DD/MM/YYYY' 格式
SELECT DATE_FORMAT(date_column, '%d/%m/%Y')
FROM table_name;

去除字符串前后的空格

sql 复制代码
SELECT TRIM(column_name)
FROM table_name;

处理大小写不一致

sql 复制代码
-- 将所有姓名转换为大写
SELECT UPPER(name)
FROM customers;
相关推荐
ccddsdsdfsdf9 小时前
DBeaver怎么链接mongoDB
数据库·mongodb
丷丩10 小时前
Postgresql基础实践教程(十一)各种Join
数据库·postgresql·join
星夜夏空9910 小时前
FreeRTOS学习(4)——内存映射
数据库·学习·mongodb
TheRouter11 小时前
AI Agent 记忆体系建设实战:短期、长期与工作记忆的工程实现
数据库·人工智能·oracle
Omics Pro11 小时前
首个!外源天然产物综合性代谢图谱
数据库·人工智能·算法·机器学习·r语言
唐青枫11 小时前
MySQL EXISTS 详解:存在性判断、NOT EXISTS 与实战示例
sql·mysql
JAVA面经实录91712 小时前
Hibernate面试题库
数据库·oracle·hibernate
迷枫71213 小时前
DM8 目录结构与常用排查入口梳理
服务器·数据库
Mr.Daozhi14 小时前
RAG 进阶实战:跑通 Demo 后我连续翻了 6 次车,逐一修复才真正可用(含 Gradio Web 版)
前端·数据库·langchain·大模型·gradio·rag·科研工具
小程故事多_8014 小时前
Claude Code自定义workflow skills用法
数据库·人工智能·智能体