对于Oracle,MySQL,SQL Server重复数据删除

问题前提

之前做过数据入湖,建表的时候匆忙,没有做主键,导致入湖出现了重复数据。举个例子:

|----|------|-----|-----|
| id | name | age | sex |
| 1 | 用户1 | 21 | 男 |
| 1 | 用户1 | 21 | 男 |
| 1 | 用户1 | 21 | 男 |

存在了如上两条及两条数据,目的是要去除重复数据,只保留一条,从而设置id为主键。

Oracle

Oracle如果存在重复数据,id设置主键时,会有02437报错。

对于Oracle去处重复数据是最简单的,每行自带rowid。

sql 复制代码
DELETE 
FROM
	user 
WHERE
	id IN ( SELECT id FROM user GROUP BY id HAVING count( id ) > 1 ) 
	AND rowid NOT IN (
	SELECT
		min( rowid ) 
	FROM
		user  
	GROUP BY
		id 
HAVING
	count( id )> 1)

执行如上语句即可删除重复数据。

因为本地没有Oracle数据库,就不做演示了。

MySQL

MySQL没有rowid,那么MySQL解决办法只有一种,把A表的数据去重添加到B表中,在B表中设置id为主键,最后把B表重命名为A表。

sql 复制代码
INSERT INTO user1 ( SELECT DISTINCT * FROM user );

暂不清楚,数据量大的情况下会不会出现崩溃,可以通过limit截取。

如果不确定A表的数据是否全部添加到B表,可以添加完成后,执行

sql 复制代码
DELETE FROM user WHERE user.id IN (SELECT user1.id FROM user1)

这种方式当然也适用于其他数据库。

当然MySQL还有另外一种方式,就是新增一个字段为自增字段且不为null,让其自动填充,类似充当Orcal中的rowid。

填充完成后。

sql 复制代码
DELETE 
FROM
	user 
WHERE
	user.rowid NOT IN (
	  SELECT
		dt.minid 
	  FROM
	  ( SELECT MIN( user.rowid ) AS minid FROM user GROUP BY name ) dt 
	)

有多种方式,可参考【mysql】mysql删除重复记录并且只保留一条_mysql删除完全重复数据只保留一条_千g的博客-CSDN博客

SQL Server

SQL Server 和MySQL逻辑是一样的,但语法上稍有变化

sql 复制代码
SELECT DISTINCT * INTO [dbo].[user1] FROM [dbo].[user]

SQL Server是不需要创建user1表的,会自动创建,数据导入到新表后再设置主键即可。

另外一种设置自增rowid,执行:

sql 复制代码
DELETE 
FROM
	[dbo].[user] 
WHERE
	[dbo].[user].rowid NOT IN (
	  SELECT
		dt.minid 
	  FROM
	  ( SELECT MIN( [dbo].[user].rowid ) AS minid FROM [dbo].[user] GROUP BY name ) dt 
	)

后续

后续研究其他数据库,mongo等其他用到的数据库再做更新,

相关推荐
2501_938963962 分钟前
服务器数据库安全:MySQL 开启 SSL 连接,禁止远程 root 登录并限制 IP 访问
服务器·mysql·ssl
骇客野人7 小时前
mysql笛卡尔积怎么形成的怎么避免笛卡尔积
数据库·mysql
m0_564264187 小时前
IDEA DEBUG调试时如何获取 MyBatis-Plus 动态拼接的 SQL?
java·数据库·spring boot·sql·mybatis·debug·mybatis-plus
隐语SecretFlow8 小时前
隐语SecreFlow SCQL 1.0.0b1 发布:更完善的 SQL 支持与更高效的隐私查询引擎
数据库·sql
ttghgfhhjxkl9 小时前
文档搜索引擎搜索模块的索引更新策略:实时增量与全量重建设计
数据库·搜索引擎
老华带你飞9 小时前
机器人信息|基于Springboot的机器人门户展示系统设计与实现(源码+数据库+文档)
java·数据库·spring boot·机器人·论文·毕设·机器人门户展示系统
StarRocks_labs9 小时前
StarRocks 在 Cisco Webex 的探索与实践
数据库·starrocks·json·存算分离·olap 技术栈
notion20259 小时前
Adobe Lightroom Classic下载与安装教程(附安装包) 2025最新版详细图文安装教程
java·数据库·其他·adobe
unicrom_深圳市由你创科技9 小时前
用 CTE 重构嵌套子查询:让复杂报表 SQL 可读性提升 80%
mysql·重构
楚枫默寒10 小时前
mongodb备份脚本(单机+副本集)
数据库