从Excel列数据去重后,重新保存到新的Excel里
python
import pandas as pd
# 读取Excel文件
file = r"D:\\pythonXangmu\\quchong\\quchong.xlsx" # 使用原始字符串以避免转义字符
df = pd.read_excel(file, sheet_name='nameSheet')
# 删除重复值
df2 = df.drop_duplicates(subset='name')#列名 subset='name'
# 从Excel列中提取值
names = df2['name'].tolist()
ages = df2['age'].tolist()
# 创建一个新的DataFrame
df3 = pd.DataFrame({'name': names, 'age': ages})
# 将新的DataFrame写入Excel文件
#df3.to_excel('3quchong4.xlsx', sheet_name='Sheet1', index=False)#这里不是绝对路径,代码虽然跑成功了,也能打印出结果,但是电脑上就是找不到文件3quchong4.xlsx,解决办法就是写成绝对路径,就会自动生成一个3quchong4.xlsx文件
df3.to_excel('D:\\pythonXangmu\\quchong\\3quchong4.xlsx', sheet_name='Sheet1', index=False)
#df4 =df3.to_excel('D:\\pythonXangmu\\quchong\\3quchong4.xlsx', sheet_name='Sheet1', index=False)
# 读取新创建的Excel文件
df5 = pd.read_excel('3quchong4.xlsx', sheet_name='Sheet1')#这里读取数据,一定是pandas.read_excel,不是 某个Excel表.read_excel,如df4.read_excel
#如:df5= df4.read_excel('quchong2.xlsx', sheet_name='Sheet1')#Excel表.read_excel 是个错误的写法
print('去重后5\n', df5)
这里还会报错:handle = open(handle, ioargs.mode)
FileNotFoundError: [Errno 2] No such file or directory: '3quchong4.xlsx'
但是实际已经生成3quchong4.xlsx,所以3quchong4.xlsx是存在的。