Python数据分析(Series+DataFrame+部分运算+groupby)

Pandas操作财报数据

Series

type() 返回变量类型
可见ser_obj类型为<class 'pandas.core.series.Series'>

python 复制代码
import pandas as pd

ser_obj = pd.Series([9,2,'a',4,5],index=['11','22','33','44','aa'])
data={'Tome':'aa','Marry':'bb'}
print(type(ser_obj))
print(ser_obj)

ser_obj2=pd.Series(data)
print(ser_obj2)
print(ser_obj.index,ser_obj.values)

DataFrame


df类型为<class 'pandas.core.frame.DataFrame'>

python 复制代码
data=[[1,2,3],['a','b','c'],['!','@','$']]
df1=pd.DataFrame(data,columns=['A','B','C'],index=['1','2','3'])#添加列索引,行索引

print(type(df1))
print(df1)

读文件内容

python 复制代码
CSoft = pd.read_excel('E:\AAA工作\授课\大数据技术应用基础\代码文件和素材文件\ch6\data.xlsx',sheet_name='CSoft',usecols='A,B',nrows=2)# 只导入AB列,前两行
print(CSoft)


CSoft.to_excel('data1.xlsx')

import numpy as np 
df2=pd.DataFrame(np.random.rand(8,4),columns=['A','B','C','D'])
df2

读取

ser0 位置索引

ser'name'标签索引

ser0:4 【0,4)位置切片

ser'a':'d' 【'a','d'】标签切片

ser\['a','d','f'] 用列表盛放多个

df列索引行索引

df.loc(x,y) 标签 【x,y】 闭区间

df.iloc(x,y) 位置 【x,y)左闭右开区间

python 复制代码
print(df2.loc[1:2,'A'])
print(type(df2.loc[1:2,'A']))

排序

python 复制代码
df2.sort_index(axis=1,ascending=False) # axis=1列标签 axis=0行标签

df2.sort_values(by='A',ascending=False,axis=0) # axis=1列标签 axis=0行标签

计算

python 复制代码
df2['A'].quantile(q=0.5)#偶数就按中间两个数的均值

df3=pd.read_excel('E:\AAA工作\授课\大数据技术应用基础\代码文件和素材文件\ch7\MG公司2023年销售数据.xlsx')
df3
python 复制代码
df3['利润']=df3['销售金额']-df3['成本']

df3['销售金额'].describe()

df3['产品名称'].count()

groupby

python 复制代码
a1=df3['销售金额'].groupby(df3['地域'])
a2=df3.groupby('地域')
print(type(a1))# groupby.generic.SeriesGroupBy
print(type(a2))# groupby.generic.DataFrameGroupBy
print(a1)# 是多个元组所以得用循环查看。每个元组第一个元素是分组的字段值第二个元素是数据表
for i in a1:# 每个元组查看
    print(type(i[0]),type(i[1]))# str,pandas.core.series.Series也就是Series对象
    print(i[0])
    print(i[1])
    break
python 复制代码
a2=df3.groupby('地域')
print(type(a2))# groupby.generic.DataFrameGroupBy
for i in a2:# 每个元组查看
    print(type(i[0]),type(i[1]))# str,pandas.core.frame.DataFrame也就是DataFrame对象
    print(i[0])
    print(i[1])
    break

对分组后的组对象可以对其值求和,这里就是按地域分组后的销售金额求和

python 复制代码
print(type(df3['销售金额'].groupby(df3['地域']).sum()))
print(df3['销售金额'].groupby(df3['地域']).sum())# 求和使得数据类型变为pandas.core.series.Series

以上代码由于df3.groupby('地域')得到的组对象中还是个矩阵DataFrame,所以.sum()就将所有列分别求和了

python 复制代码
print(type(df3.groupby('地域').sum()))# frame.DataFrame
print(type(df3.groupby('地域')['销售金额'].sum()))# series.Series
print(df3.groupby('地域').sum())#

一般还是先分组再取列更常用

python 复制代码
a2=df3.groupby(['地域','日期'])
a2.sum()
相关推荐
caimouse2 小时前
reactos编码规范
c语言·开发语言
xieliyu.6 小时前
Java算法精讲:双指针(三)
java·开发语言·算法
love530love6 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
遇事不決洛必達6 小时前
【Python基础】GIL 锁是什么及其对爬虫的影响
爬虫·python·线程·进程·gil锁
CryptoPP7 小时前
快速对接东京证券交易所API数据:实战指南与代码示例
开发语言·人工智能·windows·python·信息可视化·区块链
ZC跨境爬虫7 小时前
跟着 MDN 学JavaScript day_7:数学运算与逻辑判断实战测试
开发语言·前端·javascript·学习·ecmascript
探物 AI8 小时前
把 MambaOut 塞进 YOLOv11:会有什么样的反应
python·yolo·计算机视觉
如竟没有火炬8 小时前
最大矩阵——单调栈
数据结构·python·线性代数·算法·leetcode·矩阵
阳区欠8 小时前
【LangChain】LLM基础介绍
开发语言·python·langchain
Cosolar8 小时前
保姆级 CrewAI 教程:从零构建多智能体协作系统
人工智能·python·架构