Series数据去重

目录

准备数据

Series数据去重

DataFrame数据和Series数据去重对比


pandas中,Series.drop_duplicates(keep=, inplace=)方法用于删除Series对象中的重复值。

  1. keep

    1. 决定保留哪些重复值。可以取以下三个值之一:

      • 'first'(默认值):保留第一次出现的重复值。

      • 'last':保留最后一次出现的重复值。

      • False:删除所有重复值。

  2. inplace

    1. 这是一个布尔值参数。如果为True,则直接在原始Series上进行修改,不会返回新的Series。如果为False(默认值),则会返回一个新的Series,原始的Series保持不变。

准备数据

复制代码
import pandas as pd
df = pd.read_csv("../data/b_LJdata.csv")
df.head()

Series数据去重

  1. 对 朝向 构成的 Series对象 去重, 保留第一条, 不影响原始对象

    1 对 朝向 构成的 Series对象 去重, 保留第一条, 不影响原始对象

    1.1 准备数据

    chaoxiang_series = df.head()['朝向']
    print('------------ 去重前 ----------------')
    print(chaoxiang_series)

    1.2 去重

    new_series = chaoxiang_series.drop_duplicates(keep='first', inplace=False)
    print('==================')
    print(new_series)
    print('==================')

    print('------------ 去重后 ----------------')
    print(chaoxiang_series)

2) 对 朝向 构成的 Series对象 去重, 保留最后一条, 不影响原始对象

复制代码
# 2 对 朝向 构成的 Series对象 去重, 保留最后一条, 不影响原始对象
# 2.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 2.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='last', inplace=False)
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

3) 对 朝向 构成的 Series对象 去重, 删除所有重复, 不影响原始对象

复制代码
# 3 对 朝向 构成的 Series对象 去重, 删除所有重复, 不影响原始对象
# 3.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 3.2 去重
new_series = chaoxiang_series.drop_duplicates(keep=False, inplace=False)
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

4) 对 朝向 构成的 Series对象 去重, 保留第一条, 影响原始对象

复制代码
# 4 对 朝向 构成的 Series对象 去重, 保留第一条, 影响原始对象
# 4.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 4.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='first', inplace=True)
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

5) 对 朝向 构成的 Series对象 去重, 保留最后一条, 影响原始对象

复制代码
# 5 对 朝向 构成的 Series对象 去重, 保留最后一条, 影响原始对象
# 5.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 5.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='last', inplace=True)
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

6) 对 朝向 构成的 Series对象 去重, 删除所有重复, 影响原始对象

复制代码
# 6 对 朝向 构成的 Series对象 去重, 删除所有重复, 影响原始对象
# 6.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 6.2 去重
new_series = chaoxiang_series.drop_duplicates(keep=False, inplace=True)
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

*7)*简化

复制代码
# 7 简化
# 7.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)

# 7.2 去重
new_series = chaoxiang_series.drop_duplicates()
print('==================')
print(new_series)
print('==================')

print('------------ 去重后 ----------------')
print(chaoxiang_series)

DataFrame数据和Series数据去重对比

DataFrame数据去重,最终呈现的是数据集合

复制代码
temp_df = df.head().copy()

# 对df所有列去重, 当前df没有重复的行数据
print(temp_df.drop_duplicates())
print("=================================")
# 根据指定列对df去重, 默认保留第一条数据
# 第1行和第5行、第2行和第3行重复
print(temp_df.drop_duplicates(subset=['户型', '朝向']))

Series数据去重,最终呈现是一列数据

复制代码
temp_df = df.head().copy()

# 默认保留第一条数据
print(temp_df.drop_duplicates())
print("===========================")
print(temp_df[['户型','朝向']].drop_duplicates())
相关推荐
狐狐生风2 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
虹科网络安全2 小时前
艾体宝干货|数据复制详解:类型、原理与适用场景
java·开发语言·数据库
狐狐生风2 小时前
LangChain RAG 基础
人工智能·python·学习·langchain·rag·agentai
哥布林学者2 小时前
深度学习进阶(十五)通道注意力 SE
机器学习·ai
2301_771717212 小时前
解决mysql报错:1406, Data too long for column
android·数据库·mysql
HackTorjan3 小时前
深度神经网络的反向传播与梯度优化原理
人工智能·spring boot·神经网络·机器学习·dnn
老前端的功夫3 小时前
【Java从入门到入土】28:Stream API:告别for循环的新时代
java·开发语言·python
小江的记录本3 小时前
【Kafka核心】架构模型:Producer、Broker、Consumer、Consumer Group、Topic、Partition、Replica
java·数据库·分布式·后端·搜索引擎·架构·kafka
dvjr cloi3 小时前
MySQL Workbench菜单汉化为中文
android·数据库·mysql
yaoxin5211233 小时前
397. Java 文件操作基础 - 创建常规文件与临时文件
java·开发语言·python