Pandas Dataframe合并连接Join和merge 参数讲解

文章目录

函数与参数分析

在pandas中主要有两个函数可以完成table之间的join

Join的函数如下:

DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False, validate=None)

merge的函数如下:

DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)

下面会对于参数进行分别的解释。而通过可以调试的参数和

other

other是另外一个DataFrame或者Series,说明了join的两个表为DataFrame和other

on

on表示根据什么键进行连接,这个键可以是一个或者多个。如果这个连接的键在两个表中都存在就直接写就好,如果是一个就写一个String,多个就用list。

其中merge是需要给键值的。join默认的是使用索引的值。

如果不存在的话,那么则可以规定left_on和right_on。但是这个时候只能用merge, join是不支持这一点的。(merge的代码如下)

python 复制代码
result = df1.merge(df2, left_on='key1', right_on='key2')

但是如果是连接多个键的名字都不同的时候,(比如df1.key1 == df2.key2 , df1.key3 == df2.key4) 那么则最好先通过rename的函数对Dataframe进行改名,之后再merge。

how

how表示的是连接的方式,一般包含下面的参数,默认是左连接

join:

how{'left', 'right', 'outer', 'inner', 'cross'}, default 'left'

merge:

how{'left', 'right', 'outer', 'inner', 'cross'}, default 'inner'

这里可以看见两者默认的连接方式是不同的

不同的连接方式如下:

当使用cross的时候不需要指定on啥,因为会把左右连接的所有的可能都返回,并不在乎谁和谁相等。

lsuffix, rsuffix, suffixes

如果有非连接key出现同名的情况,可以用此参数来规定区别两个列分别来自于哪个表。

left_index, right_index

这个是merge中的参数,当设置为True的时候,意思是使用索引进行连接。

相关推荐
七颗糖很甜2 小时前
雨滴谱数据深度解析——从原始变量到科学产品的Python实现【下篇】
python·算法·pandas
l1t3 小时前
利用uv自带的cpython软件包在离线机器中安装pandas软件
pandas·uv
万粉变现经纪人4 小时前
如何解决 pip install ta-lib 报错 本地 TA-Lib 库未安装 问题
数据库·python·scrapy·oracle·bug·pandas·pip
李昊哲小课4 小时前
Pandas数据分析 - 第十一章:数据可视化
信息可视化·数据挖掘·数据分析·pandas·matplotlib
絆人心2 天前
Python 数据分析核心库:Pandas 与 NumPy 从入门到实战全指南(附电商用户分析完整代码)
python·数据挖掘·数据分析·numpy·pandas·数据处理·电商数据分析
李昊哲小课2 天前
Pandas数据分析 - 第十二章:性能优化
性能优化·数据挖掘·数据分析·pandas
李昊哲小课2 天前
Pandas数据分析 - 第二章:Series 对象详解
数据挖掘·数据分析·pandas
测试开发Kevin2 天前
Pandas 2.x核心技术—— Apache Arrow 高性能数据处理的基石
大数据·pandas
李昊哲小课2 天前
Pandas数据分析 - 第三章:DataFrame 对象详解
数据挖掘·数据分析·pandas
不会唱歌的拖拉机3 天前
使用Pandas进行RFM分析全过程
数据分析·pandas