Pandas合并数据集

第1关:Concat与Append操作

python 复制代码
import pandas as pd

"""
data.csv和data1.csv是两份与各国幸福指数排名相关的数据,为了便于查看排名详情,所以需要将两份数据横向合并。数据列名含义如下:

列名    说明
Country (region)    国家
Ladder    排名
SD of Ladder    排名的偏差
Positive affect    积极影响
Negative affect    消极影响
Social support    社会福利
Freedom    自由度
Corruption    腐败程度
Generosity    慷慨程度
Log of GDP per capita    人均GDP的对数
Healthy life expectancy    健康程度

读取step1/data.csv和step1/data1.csv两份数据;
首先将两个数据横向合并;
将索引设为排名(Ladder)列;
填充空值为0;
具体要求请参见后续测试样例。
"""


def task1():
    # ********** Begin **********#
    # 读取数据
    d1 = pd.read_csv('step1/data.csv', header=0)
    d2 = pd.read_csv('step1/data1.csv', header=0)

    # 横向合并,将索引设为排名(Ladder),填充空值为0
    d3 = pd.concat([d1, d2], axis=1)
    result = d3.set_index('Ladder').fillna(0)

    # ********** End **********#
    return result

第2关:合并与连接

python 复制代码
import pandas as pd
def task2(dataset1,dataset2,dataset3):
    # ********** Begin **********#
    data = pd.DataFrame(dataset1)
    data1 = pd.DataFrame(dataset2)
    data2 = pd.DataFrame(dataset3)
    data2.rename(columns={"id": "user_id"}, inplace=True)
    data3 = pd.merge(data, data1, on="user_id", how="left")
    data4 = pd.concat([data2, data3], ignore_index=True)
    result = data4.sort_values("user_id").drop_duplicates("user_id")
    # ********** End **********#
    return result

第3关:案例:美国各州的统计数据

python 复制代码
import pandas as pd
import numpy as np


def task3():
    # ********** Begin **********#
    # 读取三个csv文件
    pop = pd.read_csv('./step3/state-population.csv')
    areas = pd.read_csv('./step3/state-areas.csv')
    abbrevs = pd.read_csv('./step3/state-abbrevs.csv')

    # print(pop)
    # print(areas)
    # print(abbrevs)

    # 合并pop和abbrevs并删除重复列

    # pop的state/region列与abbrevs的abbreviation列进行合并,
    # 还需要通过how='outer'确保数据没有丢失,
    # 得到合并后的结果,发现有一个重复列需要删除,所以,删除abbreviation列;
    pa = pd.merge(pop, abbrevs, left_on=['state/region'], right_on=['abbreviation'], how='outer')
    pa = pa.drop('abbreviation', axis=1)
    """
    # 来全面检查一下数据是否有缺失,对每个字段逐行检查是否有缺失值,通过结果可知只有population和state列有缺失值;
    for i in pa:
        print(i, pa[i].isnull().any())
    # 输出发现state/region = PR的对应的population和state都是空值
    print(pa[pa['population'].isnull()])
    # US对应的state也是空值
    print(pa[pa['state'].isnull()])
    """
    # 填充对应的全称
    pa.loc[pa['state/region'] == 'PR', 'state'] = 'Puerto Rico'
    pa.loc[pa['state/region'] == 'USA', 'state'] = 'United States'

    # 合并面积数据,合并pa和areas,key=state
    pa = pd.merge(pa, areas, on='state', how='left')

    # 输出发现还有缺失值,检查一下
    # 可以得出缺少的是全美国的面积数据
    # print(pa[pa['area (sq. mi)'].isnull()]['state'].unique())

    # 我们不需要这个数据,删掉缺失值
    pa = pa.dropna()

    # 取year = 2010的数据,并将索引设置为state列
    data2010 = pa[pa['year'] == 2010]
    data2010.set_index('state', inplace=True)  # inplace = True 会替换掉之前的state列,只保留索引列

    # 计算人口密度,population / 面积area
    density = data2010['population'] / data2010['area (sq. mi)']
    # print(density)
    # print(data2010)

    # 一个国家的人口密度分为成年和未成年,我们将其合并
    # 数据中呈现的就是两个相同的state的信息,我们按照state分组后合并
    sum_density = density.groupby('state').sum()
    # print(sum_density)

    # 对上面的值进行排序
    # ascending默认=True,即升序排序
    sort_sum_density = sum_density.sort_values(ascending=False)
    # print(sort_sum_density)

    print('前5名:\n{}'.format(sort_sum_density.head(5)))
    print('后5名:\n{}'.format(sort_sum_density.tail(5)))
    
相关推荐
姜—姜4 天前
数据分析总结
数据挖掘·数据分析·numpy·pandas·matplotlib·jieba·seaborn
万粉变现经纪人9 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘transformers’问题
人工智能·python·beautifulsoup·pandas·scikit-learn·pip·ipython
史锦彪11 天前
Pandas 入门:数据分析的得力工具
数据挖掘·数据分析·pandas
Wangsk13311 天前
用 Python 批量处理 Excel:从重复值清洗到数据可视化
python·信息可视化·excel·pandas
木木子999912 天前
Pandas query() 方法详解
pandas·query
修钩.17 天前
力扣 Pandas 挑战(5)---数据分组
算法·leetcode·pandas
万粉变现经纪人17 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘plotly’问题
python·scrapy·plotly·pycharm·flask·pandas·pip
码界奇点18 天前
Python深度挖掘:openpyxl与pandas高效数据处理实战指南
开发语言·数据库·python·自动化·pandas·python3.11
码界筑梦坊18 天前
91-基于Spark的空气质量数据分析可视化系统
大数据·python·数据分析·spark·django·numpy·pandas
蔷薇のぬ18 天前
Python 使用pandas库实现Excel字典码表对照自动化处理
python·pandas