使用Pandas模块可以从多种类型的文件中读取数据。本节主要从Excel和csv格式文件中读取数据为例,进行练习。
一、读取数据Excel格式
主要包括,读取完整表格、读取指定行数据、读取指定列数据。
二、读取数据csv格式
主要包括,读取完整表格、读取指定行数据。
python
##############################
##作者:白雪公主的后妈
##时间:2024年12月29日
##主题:数据的简单处理------pandas模块------读取数据(Excel和csv格式)
##############################
'''
使用Pandas模块可以从多种类型的文件中读取数据。本节主要从Excel和csv格式文件中读取数据为例,进行练习。
'''
#一、读取Excle
#1、读取Excel工作簿数据 通过read_excel()函数
import pandas as pd
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1)
print(data)
'''
运行结果:
订单编号 产品 数量 金额
0 d001 投影仪 5台 2000
1 d002 马克笔 5盒 300
2 d003 打印机 1台 298
3 d004 点钞机 1台 349
4 d005 复印纸 2箱 100
5 d006 条码纸 6卷 34
根据运行结果可以看出,read_excel()函数使用读取数据创建了一个DateFrame对象。
'''
#2、指定读取数据的列表签
#在使用read_excel()函数读取数据时,可以通过设置参数header来指定使用数据表的第几行(从0开始计数)。当省略
#该参数或者将其值设置为0时,表示使用数据表1行的内容。
import pandas as pd
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,header=0)
print(data)
'''
运行结果:
订单编号 产品 数量 金额
0 d001 投影仪 5台 2000
1 d002 马克笔 5盒 300
2 d003 打印机 1台 298
3 d004 点钞机 1台 349
4 d005 复印纸 2箱 100
5 d006 条码纸 6卷 34
'''
##################################
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,header=2)
print(data)
'''
运行结果:
d002 马克笔 5盒 300
0 d003 打印机 1台 298
1 d004 点钞机 1台 349
2 d005 复印纸 2箱 100
3 d006 条码纸 6卷 34
'''
#################################
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,header=None)
print(data)
'''
运行结果:如果要将列标签设置为从0开始的数字序列,可以将header参数设置为None
0 1 2 3
0 订单编号 产品 数量 金额
1 d001 投影仪 5台 2000
2 d002 马克笔 5盒 300
3 d003 打印机 1台 298
4 d004 点钞机 1台 349
5 d005 复印纸 2箱 100
6 d006 条码纸 6卷 34
'''
#3、指定读取数据的行列表签
#在使用read_excel()函数读取数据时,可以通过设置参数index_col来指定使用数据表的第几列(从0开始计数)。当省略
#该参数或者将其值设置为0时,表示使用数据表1列的内容。
import pandas as pd
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,index_col=0)
print(data)
'''
运行结果:
产品 数量 金额
订单编号
d001 投影仪 5台 2000
d002 马克笔 5盒 300
d003 打印机 1台 298
d004 点钞机 1台 349
d005 复印纸 2箱 100
d006 条码纸 6卷 34
'''
##################################
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,index_col=1)
print(data)
'''
运行结果:
订单编号 数量 金额
产品
投影仪 d001 5台 2000
马克笔 d002 5盒 300
打印机 d003 1台 298
点钞机 d004 1台 349
复印纸 d005 2箱 100
条码纸 d006 6卷 34
'''
#################################
#读取指定列
data=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,usecols=[2])
data1=pd.read_excel("E:\\python\\Python_Code\\Excel\\订单表.xlsx",sheet_name=1,usecols=[1,3])
print(data)
print(data1)
'''
运行结果:如果只需要读取某列或者某几列,可以使用参数usecols来指定要读取的列。usecols=[2]表示读取第三列,usecols=[1,3]表示读取第2列和第4列
数量
0 5台
1 5盒
2 1台
3 1台
4 2箱
5 6卷
产品 金额
0 投影仪 2000
1 马克笔 300
2 打印机 298
3 点钞机 349
4 复印纸 100
5 条码纸 34
'''
#二、读取csv文件数据
'''
csv文件一般用逗号分隔开一系列值,它既可以用Excel程序打开,也可以用记事本打开。
'''
#使用read_csv()函数读取csv文件
import pandas as pd
date=pd.read_csv("E:\\python\\Python_Code\\Excel\\订单表.csv")
print(date)
'''
运行结果:
订单编号 产品 数量 金额
0 d001 投影仪 5台 2000
1 d002 马克笔 5盒 300
2 d003 打印机 1台 298
3 d004 点钞机 1台 349
4 d005 复印纸 2箱 100
5 d006 条码纸 6卷 34
'''
#如果只想读取csv文件的前几行数据,可以设置read_csv()函数中设置参数nrows值。
import pandas as pd
date=pd.read_csv("E:\\python\\Python_Code\\Excel\\订单表.csv",nrows=3)
print(date)
'''
运行结果:
订单编号 产品 数量 金额
0 d001 投影仪 5台 2000
1 d002 马克笔 5盒 300
2 d003 打印机 1台 298
'''