Pandas合并数据集

第1关:Concat与Append操作

python 复制代码
import pandas as pd

"""
data.csv和data1.csv是两份与各国幸福指数排名相关的数据,为了便于查看排名详情,所以需要将两份数据横向合并。数据列名含义如下:

列名    说明
Country (region)    国家
Ladder    排名
SD of Ladder    排名的偏差
Positive affect    积极影响
Negative affect    消极影响
Social support    社会福利
Freedom    自由度
Corruption    腐败程度
Generosity    慷慨程度
Log of GDP per capita    人均GDP的对数
Healthy life expectancy    健康程度

读取step1/data.csv和step1/data1.csv两份数据;
首先将两个数据横向合并;
将索引设为排名(Ladder)列;
填充空值为0;
具体要求请参见后续测试样例。
"""


def task1():
    # ********** Begin **********#
    # 读取数据
    d1 = pd.read_csv('step1/data.csv', header=0)
    d2 = pd.read_csv('step1/data1.csv', header=0)

    # 横向合并,将索引设为排名(Ladder),填充空值为0
    d3 = pd.concat([d1, d2], axis=1)
    result = d3.set_index('Ladder').fillna(0)

    # ********** End **********#
    return result

第2关:合并与连接

python 复制代码
import pandas as pd
def task2(dataset1,dataset2,dataset3):
    # ********** Begin **********#
    data = pd.DataFrame(dataset1)
    data1 = pd.DataFrame(dataset2)
    data2 = pd.DataFrame(dataset3)
    data2.rename(columns={"id": "user_id"}, inplace=True)
    data3 = pd.merge(data, data1, on="user_id", how="left")
    data4 = pd.concat([data2, data3], ignore_index=True)
    result = data4.sort_values("user_id").drop_duplicates("user_id")
    # ********** End **********#
    return result

第3关:案例:美国各州的统计数据

python 复制代码
import pandas as pd
import numpy as np


def task3():
    # ********** Begin **********#
    # 读取三个csv文件
    pop = pd.read_csv('./step3/state-population.csv')
    areas = pd.read_csv('./step3/state-areas.csv')
    abbrevs = pd.read_csv('./step3/state-abbrevs.csv')

    # print(pop)
    # print(areas)
    # print(abbrevs)

    # 合并pop和abbrevs并删除重复列

    # pop的state/region列与abbrevs的abbreviation列进行合并,
    # 还需要通过how='outer'确保数据没有丢失,
    # 得到合并后的结果,发现有一个重复列需要删除,所以,删除abbreviation列;
    pa = pd.merge(pop, abbrevs, left_on=['state/region'], right_on=['abbreviation'], how='outer')
    pa = pa.drop('abbreviation', axis=1)
    """
    # 来全面检查一下数据是否有缺失,对每个字段逐行检查是否有缺失值,通过结果可知只有population和state列有缺失值;
    for i in pa:
        print(i, pa[i].isnull().any())
    # 输出发现state/region = PR的对应的population和state都是空值
    print(pa[pa['population'].isnull()])
    # US对应的state也是空值
    print(pa[pa['state'].isnull()])
    """
    # 填充对应的全称
    pa.loc[pa['state/region'] == 'PR', 'state'] = 'Puerto Rico'
    pa.loc[pa['state/region'] == 'USA', 'state'] = 'United States'

    # 合并面积数据,合并pa和areas,key=state
    pa = pd.merge(pa, areas, on='state', how='left')

    # 输出发现还有缺失值,检查一下
    # 可以得出缺少的是全美国的面积数据
    # print(pa[pa['area (sq. mi)'].isnull()]['state'].unique())

    # 我们不需要这个数据,删掉缺失值
    pa = pa.dropna()

    # 取year = 2010的数据,并将索引设置为state列
    data2010 = pa[pa['year'] == 2010]
    data2010.set_index('state', inplace=True)  # inplace = True 会替换掉之前的state列,只保留索引列

    # 计算人口密度,population / 面积area
    density = data2010['population'] / data2010['area (sq. mi)']
    # print(density)
    # print(data2010)

    # 一个国家的人口密度分为成年和未成年,我们将其合并
    # 数据中呈现的就是两个相同的state的信息,我们按照state分组后合并
    sum_density = density.groupby('state').sum()
    # print(sum_density)

    # 对上面的值进行排序
    # ascending默认=True,即升序排序
    sort_sum_density = sum_density.sort_values(ascending=False)
    # print(sort_sum_density)

    print('前5名:\n{}'.format(sort_sum_density.head(5)))
    print('后5名:\n{}'.format(sort_sum_density.tail(5)))
    
相关推荐
CodeCraft Studio8 小时前
国产化Excel开发组件Spire.XLS教程:在Python中将Pandas DataFrame导出到Excel的详细教程
python·excel·pandas
sunbyte1 天前
从零掌握 Pandas:数据分析的黄金钥匙|01:认识Pandas
数据挖掘·数据分析·pandas
是梦终空2 天前
计算机毕业设计240—基于python+爬虫+html的微博舆情数据可视化系统(源代码+数据库)
爬虫·python·pandas·课程设计·毕业论文·计算机毕业设计·微博舆情可视化
万粉变现经纪人5 天前
如何解决 pip install -r requirements.txt 私有索引未设为 trusted-host 导致拒绝 问题
开发语言·python·scrapy·flask·beautifulsoup·pandas·pip
万粉变现经纪人6 天前
如何解决 pip install -r requirements.txt 私有仓库认证失败 401 Unauthorized 问题
开发语言·python·scrapy·flask·beautifulsoup·pandas·pip
m***记6 天前
Python 数据分析入门:Pandas vs NumPy 全方位对比
python·数据分析·pandas
小钱c77 天前
Python使用 pandas操作Excel文件并新增列数据
python·excel·pandas
虎头金猫9 天前
我的远程开发革命:从环境配置噩梦到一键共享的蜕变
网络·python·网络协议·tcp/ip·beautifulsoup·负载均衡·pandas
悟乙己10 天前
PandasAI :使用 AI 优化你的分析工作流
人工智能·pandas·pandasai
weixin_4569042711 天前
# Pandas 与 Spark 数据操作完整教程
大数据·spark·pandas