Pandas 数据变形和模型分析

亚图跨际2023-09-21 12:38

数据概念

数据比对

在本练习中，我们使用灵活的比较技术对不同的DataFrame进行比较

python 复制代码

import pandas as pd
import random

random.seed(123)
list1 = [['A']*3,['B']*5,['C']*7]
charlist = [x for sublist in list1 for x in sublist]
random.shuffle(charlist)
ser1 = pd.Series(charlist)

random.seed(123)
ser2 = pd.Series(random.sample(range(10, 100), 15))

prodDf1 = pd.concat([ser1,ser2],axis=1)
prodDf1.columns=['Product','Sales']

random.seed(321)
list1 = [['A']*2,['B']*8,['C']*5]
charlist = [x for sublist in list1 for x in sublist]
random.shuffle(charlist)
ser3 = pd.Series(charlist)

random.seed(321)
ser4 = pd.Series(random.sample(range(10, 100), 15))

prodDf2 = pd.concat([ser3,ser4],axis=1)
prodDf2.columns=['Product','Sales']
...

比较两商店销售数据

从数据中获得见解，有效地规划营销活动

数据结构

使用数据结构简析GDP

数据输入输出

SQL数据分析（使用季度客户和订单列表）

确定最大的采购客户

数据类型

优化内存（使用汽车评估数据集）

数据选择

从列创建多索引（使用蘑菇分类数据集）

种群、栖息地多指标蘑菇数据比较

确定人口增长（使用人口数据集）

计算增长率并对比

生物环数分析雌雄性样本（鲍鱼牡蛎数据集）

生物环数计算，获取不同维度汇总值

数据探索和转换

数据透视（使用学生表现数据集）

处理缺失数据和汇总数据以获得见解

数据可视化

探索性数据分析（使用装配式房屋数据集）

构建不同类型的地块，以便对销售价格进行探索性数据分析

数据建模预处理

建立简单线性模型（使用发电厂满负荷电力和环境变量数据集）

数据分割、缩放和建模

标准化和平滑数据（使用股票交易数据集）

构建预测模型

非线性模型的多元回归（使用一氧化碳和金属氧化物半导体传感器数据集）

对非线性特征执行一些特征工程，然后将基线线性回归方法与随机森林模型进行比较

Pandas 数据变形和模型分析

数据概念

数据比对

比较两商店销售数据

数据结构

使用数据结构简析GDP

数据输入输出

SQL数据分析（使用季度客户和订单列表）

数据类型

优化内存（使用汽车评估数据集）

数据选择

从列创建多索引（使用蘑菇分类数据集）

确定人口增长（使用人口数据集）

生物环数分析雌雄性样本（鲍鱼牡蛎数据集）

数据探索和转换

数据透视（使用学生表现数据集）

数据可视化

探索性数据分析（使用装配式房屋数据集）

数据建模预处理

建立简单线性模型（使用发电厂满负荷电力和环境变量数据集）

标准化和平滑数据（使用股票交易数据集）

非线性模型的多元回归（使用一氧化碳和金属氧化物半导体传感器数据集）

参阅 - 亚图跨际