Python pandas 向excel追加数据,不覆盖之前的数据

最近突然看了一下pandas向excel追加数据的方法,发现有很多人出了一些馊主意;

比如用concat,append等方法,这种方法的会先将旧数据df_1读取到内存,再把新数据df_2与旧的合并,形成df_new,再覆盖写入,消耗和速度极大,肯定不聪明;

如果是CSV文件,pandas的to_csv可以直接mode=a追加,毕竟就是一个纯文本型文件;

但excel不行,毕竟excel存储的原理不同,同样的数据excel要小很多,粗糙地可认为,把很多相似内容,用键值对存储,那么单元格内很多重复的东西,只需要用key值代替,体积就小,但计算开销大;

1.自己试验了一下,先说结论:

**需求:**向EXCEL某个表中,追加数据,不覆盖原数据,正确高效方法:

df_1为旧数据,存到excel之后,再用pandas read_excel后称为data_1;

新数据为df_2

复制代码
import pandas as pd

path = 'd:/test_pd.xlsx'
# 正确方法
with pd.ExcelWriter(path ,mode='a',if_sheet_exists='overlay') as w:
    df_2.to_excel(w,'Sheet1',index=False,header=False,startrow=df_1.shape[0]+1)

注意:

①ExcelWriter的mode和if_sheet_exists这两模式要选对;

②startrow,必须指定起始行(默认为0),并且要+1,不然df_2的数据会覆盖df_1,跟直接df_2.to_excel()没区别;

2证明:

复制代码
import pandas as pd
import random
from faker import Faker # 生成假数据的库
df_1 = pd.DataFrame(columns=['index','name','value'])
# 生成10个数据
fake_instance = Faker("zh_CN")

index_1 = [i for i in range(1,11)]
fake_names_1 = [fake_instance.name() for i in range(1,11)]
fake_values_1 = [random.randint(1,100) for i in range(1,11)]
# 写到dataframe中
temp_list = [index_1,fake_names_1,fake_values_1]
for col,v in zip(df_1.columns,temp_list):
    df_1[col] = v
# 第一波数据还是把标题带上,后面就不带标题了
df_1.to_excel('d:/test_pd.xlsx',index=False,header=True)
df_1

2.1数据如下:

2.2再来一波数据:

复制代码
index_2 = [i for i in range(11,21)]
fake_names_2 = [fake_instance.name() for i in range(11,21)]
fake_values_2 = [random.randint(1,100) for i in range(11,21)]

df_2=pd.DataFrame({'index':index_2,'name':fake_names_2,'value':fake_values_2})
df_2

2.3使用简单而高效正确的方法追加数据:

复制代码
# 正确方法
with pd.ExcelWriter(path ,mode='a',if_sheet_exists='overlay') as w:
    df_2.to_excel(w,'Sheet1',index=False,header=False,startrow=df_1.shape[0]+1)

2.4验证本地数据:

2.5如果不指定startrow,则

观点来自:

pandas.DataFrame.to_excel:在同一个sheet内追加数据_pandas to excel的mode设置为a,可以再同一个表追加数据么-CSDN博客

相关推荐
Java面试题总结3 小时前
基于 Java 的 PDF 文本水印实现方案(iText7 示例)
java·python·pdf
不懒不懒3 小时前
【决策树算法实战指南:从原理到Python实现】
python·决策树·id3·c4.5·catr
马猴烧酒.3 小时前
【面试八股|Java集合】Java集合常考面试题详解
java·开发语言·python·面试·八股
天空属于哈夫克33 小时前
Java 版:利用外部群 API 实现自动“技术开课”倒计时提醒
数据库·python·mysql
喵手4 小时前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现
luoluoal4 小时前
基于深度学习的web端多格式纠错系统(源码+文档)
python·mysql·django·毕业设计·源码
深蓝海拓4 小时前
PySide6从0开始学习的笔记(二十七) 日志管理
笔记·python·学习·pyqt
天天进步20154 小时前
Python全栈项目:实时数据处理平台
开发语言·python
Tipriest_4 小时前
Python中is关键字详细说明,比较的是地址还是值
开发语言·python
sheji34164 小时前
【开题答辩全过程】以 基于Python的餐饮统计系统的设计和实 现为例,包含答辩的问题和答案
开发语言·python