【6】数据分析检测(DataFrame 1)

学习目标3

昨天,我们学习了Series。

而Pandas的另一种数据类型:DataFrame,在许多特性上和Series有相似之处。

今天,我们将学习DataFrame的相关知识:

  1. DataFrame的概念

  2. 构造一个DataFrame

  3. DataFrame的常用属性

  4. DataFrame的轴

DataFrame

DataFrame

数据框

|----------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------|
| 定义 DataFrame,中文叫数据框。 是pandas模块最常用的数据类型,是一个二维的矩阵数据表。 非常便捷地存放数据。 | 隐喻 DataFrame,就像是一个表格,可以通过行和列,可以定位一个值。 |

|-----------------------------------------------------------------------|----------------------------------------------------------------------------|
| 那DataFrame和Series之间有什么关系呢? 在某种程度上,可认为DataFrame是"具有相同index的Series的集合"。 | |

|-----------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------|
| 右侧是一个DataFrame,它由3部分组成: 既有行索引(index),可以用来定位到具体的某一行。 | 也有列索引(columns),用来定位到具体的某一列。 通过index和columns,可以定位到一个值,能快速进行数据的筛选和定位。 |

因此,DataFrame的同一列中,值的数据类型相同。

但是,列和列之间的数据类型可以不同。

同样的,和Series类似,DataFrame的行索引index是可以选择性定义的。如果没有定义index,index就会默认从0开始生成。

总结:

|----------------------------------------------------------------------------|
| DataFrame |
| DataFrame,中文叫做数据框,是pandas模块最常用的数据类型,是一个二维的矩阵数据表。 |
| |

|---------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| DataFrame构造函数 这几行代码,构造了一个DataFrame。 第1行,导入pandas模块。 第3行,定义了一个字典。 第4行,定义了一个列表。 第6行,使用DataFrame构造函数创建了一个DataFrame,并赋值给了变量df。 第8行,将这个创建的DataFrame输出。 | import pandas as pd data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]} city= ['GD','JS','SD','ZJ'] df= pd.DataFrame(data, index=city) print(df) |

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| pd.DataFrame( ) 通过调用的pandas模块里的DataFrame()函数,可以构造一个DataFrame。 | import pandas as pd data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]} city= ['GD','JS','SD','ZJ'] df= pd.DataFrame(data, index=city) print(df) |
| 第一个常用参数:data pd.DataFrame()中,参数data表示需要传入的数据,可以是字典,列表等。 示例中data是一个字典,传入pd.DataFrame()函数; 字典的keys,会成为DataFrame的列索引columns; 字典的values是列表,列表中的值,会成为DataFrame的值values。 注意:若不传入数据,会生成一个空的DataFrame。 | import pandas as pd data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]} city= ['GD','JS','SD','ZJ'] df= pd.DataFrame(data, index=city) print(df) |

需要特别注意的是,在构造DataFrame时,传入的字典必须是右侧所示的结构:

字典的keys是对象;

字典的values是对应的列表,并且每个列表中的元素个数相同。

|---------|---------------------------------------------------------------------------------------------------------------------------------------------------|
| 在构造过程中: | 字典中的keys,就成为了DataFrame中的列索引columns。 字典中的values,就成为了DataFrame中的值values。 |

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 第二个常用参数:index 参数index用于定义DataFrame的行索引(index)。 只需要将一个列表赋值给参数index。 示例中,我们将定义的列表city赋值给参数index。 city中的值,会成为DataFrame的index。 若不传入参数index,那么生成的DataFrame的index就会默认从0开始生成。 | import pandas as pd data = {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]} city = ['GD','JS','SD','ZJ'] df = pd.DataFrame(data, index=city) print(df) |
| 赋值的变量 将pd.DataFrame()函数创建的DataFrame,赋值给了df这个变量。 将df输出可以看到,它是一个DataFrame对象: 列索引(columns)是由字典data的的keys组成; 值(values)是由字典data的的值组成; 行索引(index)是由列表city的值组成。 | import pandas as pd data = {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]} city = ['GD','JS','SD','ZJ'] df = pd.DataFrame(data, index=city) print(df) |

总结:

相关推荐
阿里云大数据AI技术5 小时前
ODPS 十五周年实录 | 为 AI 而生的数据平台
大数据·数据分析·开源
SelectDB技术团队5 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
一个处女座的程序猿7 小时前
DataAnalytics之Tool:Metabase的简介、安装和使用方法、案例应用之详细攻略
数据分析
星期天要睡觉9 小时前
机器学习深度学习 所需数据的清洗实战案例 (结构清晰、万字解析、完整代码)包括机器学习方法预测缺失值的实践
人工智能·深度学习·机器学习·数据挖掘
山烛11 小时前
矿物分类系统开发笔记(二):模型训练[删除空缺行]
人工智能·笔记·python·机器学习·分类·数据挖掘
Tezign_space14 小时前
特赞内容运营解决方案,AI重构品牌内容价值链
大数据·人工智能·数据挖掘·产品运营·内容运营·内容+ai·agentai
喂完待续1 天前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce
源码宝1 天前
【智慧工地源码】智慧工地云平台系统,涵盖安全、质量、环境、人员和设备五大管理模块,实现实时监控、智能预警和数据分析。
java·大数据·spring cloud·数据分析·源码·智慧工地·云平台
SelectDB1 天前
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
数据库·人工智能·数据分析
数据超市1 天前
香港数据合集:建筑物、手机基站、POI、职住数据、用地类型
大数据·人工智能·智能手机·数据挖掘·数据分析