python原地去重实战案例笔记

数据样例:👇

最终想要的结果:

一、解决办法

思路:处理逐个元素检查是否已经出现过,重复的元素用空字符串替换。

python 复制代码
# 原始数据
data = [
    ['数据1', '数据2', '数据3', '数据4', '数据5'],
    ['D', 'A', 'S', 'Q', 'J'],
    ['Y', 'L', 'D', 'J', 'O'],
    ['G', 'X', 'X', 'P', 'V'],
    ['L', 'H', 'Z', 'M', 'D'],
    ['N', 'X', 'J', 'B', 'Z']
]

# 创建一个集合来存储已经出现过的值
seen = set()

# 处理数据
result = [data[0]]  # 保留表头
for row in data[1:]:
    new_row = []
    for item in row:
        if item not in seen:
            new_row.append(item)
            seen.add(item)
        else:
            new_row.append('')
    result.append(new_row)

# 打印结果
for row in result:
    print('\t'.join(row))

但在现实生活中我们可能都是直接读取excel,来获取数据,它的写法为:

python 复制代码
import pandas as pd

# 读取 Excel 文件中的数据
file_path = '公式练习题原地去重.xlsx'  # 设置要读取的 Excel 文件路径
df = pd.read_excel(file_path)

# 将数据转换为列表形式
data = df.values.tolist()

# 创建一个集合来存储已经出现过的值
seen = set()

# 处理数据
result = [df.columns.tolist()]  # 保留表头,将列名转换为列表并放入结果列表中
for row in data:
    new_row = []
    for item in row:
        if item not in seen:
            # 如果当前元素不在已出现的集合中,将其添加到新行列表,并将其加入集合
            new_row.append(item)
            seen.add(item)
        else:
            # 如果当前元素已出现过,在新行列表中添加空字符串
            new_row.append('')
    result.append(new_row)

# 将结果转换回 DataFrame 并保存为新的 Excel 文件
result_df = pd.DataFrame(result[1:], columns=result[0])
result_df.to_excel('processed_output.xlsx', index=False)
# 打印结果(可选)
for row in result:
    print('\t'.join([str(i) for i in row]))
相关推荐
WangYaolove131414 分钟前
基于Python的旅游城市关键词分析
python·django·毕业设计·源码·计算机源码
2301_7657031426 分钟前
深入理解Python的if __name__ == ‘__main__‘
jvm·数据库·python
浒畔居27 分钟前
使用Docker容器化你的Python应用
jvm·数据库·python
有一个好名字36 分钟前
力扣-省份数量
python·算法·leetcode
爱学习的阿磊39 分钟前
Python迭代器(Iterator)揭秘:for循环背后的故事
jvm·数据库·python
喵手44 分钟前
Python爬虫实战:论坛社区数据采集实战:从主题列表到分页回帖爬取(附CSV导出 + SQLite持久化存储)!
爬虫·python·sqlite·爬虫实战·零基础python爬虫教学·论坛社区数据采集·csv采集数据导出
工程师老罗1 小时前
PyTorch transforms的用法
人工智能·pytorch·python
2401_841495641 小时前
【强化学习】REINFORCE 算法
人工智能·python·算法·强化学习·reinforce·策略梯度·蒙特卡洛
喵手1 小时前
Python爬虫实战:构建企业级的招投标信息监控工具,多页动态数据抓取,实现去重增量更新(附SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·sqlite持久化存储·采集招投标信息·多页动态数据抓取
虎头金猫1 小时前
内网导航站 “出圈”!用 cpolar 解锁 Dashy 远程访问新玩法
java·c++·python·程序人生·职场和发展·php·程序员创富