Python随机抽取Excel数据并在处理后整合为一个文件

本文介绍基于Python 语言,针对一个文件夹 下大量的Excel 表格文件,基于其中每一个文件随机 从其中选取一部分数据 ,并将全部文件中随机获取的数据 合并为一个新的Excel表格文件的方法。

首先,我们来明确一下本文的具体需求。现有一个文件夹 ,其中有大量的Excel 表格文件(在本文中我们就以.csv格式的文件为例);如下图所示。

其中,每一个Excel 表格文件都有着如下图所示的数据格式;其中的第1行表示每一列的名称,第1列则表示时间。

我们希望实现的,就是从每一个Excel 表格文件中,随机选取10行数据(第1行数据肯定不能被选进去,因为其为列名;第1列数据也不希望被选进去,因为这个是表示时间的数据,我们后期不需要),并将这一文件夹中全部的Excel 表格文件中每一个随机选出的10行数据合并到一起,作为一个新的Excel表格文件。

明白了需求,我们即可开始代码的撰写;本文用到的具体代码如下所示。

复制代码
# -*- coding: utf-8 -*-
"""
Created on Fri May 19 01:47:06 2023

@author: fkxxgis
"""

import os
import pandas as pd

original_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/19_2022Data"
result_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/20_Train_Model"

result_df = pd.DataFrame()

for file in os.listdir(original_path):
    if file.endswith(".csv"):
        
        df = pd.read_csv(os.path.join(original_path, file))
        sample_df = df.sample(n = 10, axis = 0)
        sample_df = sample_df.iloc[ : , 1 : ]
        result_df = pd.concat([result_df, sample_df])
        
result_df.to_csv(os.path.join(result_path, "Train_Model_1.csv"), index = False)

代码中首先定义了原始数据文件夹(也就是有大量Excel 表格文件的文件夹)路径和结果数据文件夹路径。然后,创建了一个空的DataFrame,用于存储抽样后的数据。

接下来是一个for循环,遍历了原始数据文件夹中的所有.csv文件,如果文件名以.csv结尾,则读取该文件。然后,使用Pandas 中的sample()函数随机抽取了该文件中的10行数据,并使用iloc[]函数删除了10行数据中的第1列(为了防止第1列表示时间的列被选中,因此需要删除)。最后,使用Pandas 中的concat()函数将抽样后的数据添加到结果DataFrame中。

最后,使用Pandas 中的to_csv()函数将结果DataFrame保存到结果数据文件夹中,文件名为Train_Model_1.csv,并设置index = False表示不保存索引。

运行上述代码,我们即可获得数据合并后的文件,且第1列数据也已经被剔除了。

至此,大功告成。

文章转载自: 疯狂学习GIS

原文链接: https://www.cnblogs.com/fkxxgis/p/18600993

体验地址: 引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

相关推荐
HtwHUAT19 分钟前
实验四 Java图形界面与事件处理
开发语言·前端·python
鄃鳕21 分钟前
QSS【QT】
开发语言·qt
Tech Synapse21 分钟前
基于Surprise和Flask构建个性化电影推荐系统:从算法到全栈实现
python·算法·flask·协同过滤算法
麦麦大数据23 分钟前
vue+flask+CNN电影推荐系统
pytorch·python·cnn·flask·scikit-learn·电影推荐
汤姆_51123 分钟前
【c语言】深度理解指针4——sizeof和strlen
c语言·开发语言
腾飞开源28 分钟前
02_Flask是什么?
python·flask·python web开发·flask快速入门教程·人人都能学·小白看得懂学得会·跟我学编程
終不似少年遊*28 分钟前
国产之光DeepSeek架构理解与应用分析04
人工智能·python·深度学习·算法·大模型·ds
碎梦归途32 分钟前
23种设计模式-结构型模式之外观模式(Java版本)
java·开发语言·jvm·设计模式·intellij-idea·外观模式
明月看潮生36 分钟前
青少年编程与数学 02-016 Python数据结构与算法 28课题、图像处理算法
图像处理·python·算法·青少年编程·编程与数学
muyouking111 小时前
4.Rust+Axum Tower 中间件实战:从集成到自定义
开发语言·中间件·rust