Python数据可视化-Pandas绘图

一. Pandas数据可视化简介

pandas库是Python数据分析的核心库

它不仅可以加载和转换数据，还可以做更多的事情：它还可以可视化

pandas绘图API简单易用，是pandas流行的重要原因之一

python 复制代码

import pandas as pd
reviews = pd.read_csv('data/winemag-data_first150k.csv',index_col=0)
reviews.head()

条形图是最简单最常用的可视化图表

在下面的案例中，将所有的葡萄酒品牌按照产区分类，看看哪个产区的葡萄酒品种多：

python 复制代码

kwargs = dict(figsize=(16, 8),fontsize=20,color = ['r', 'g', 'b', 'y', 'm'])
reviews['province'] .value_counts().head().plot.bar(**kwargs)

上面的图表说明加利福尼亚生产的葡萄酒比其他省都多

也可以折算成比例, 观察加利福尼亚葡萄酒占总数的百分比

python 复制代码

(reviews['province'] .value_counts().head()/len(reviews)).plot.bar(**kwargs)

在《葡萄酒杂志》（Wine Magazine）评述的葡萄酒中，加利福尼亚生产了近三分之一！

条形图(柱状图)非常灵活：

高度可以代表任何东西，只要它是数字即可

每个条形可以代表任何东西，只要它是一个类别即可。

也可以用来展示《葡萄酒杂志》（Wine Magazine）给出的评分数量的分布情况：

python 复制代码

reviews['points'] .value_counts().sort_index().plot.bar(**kwargs)

如果要绘制的数据不是类别值，而是连续值比较适合使用折线图

python 复制代码

reviews['points'] .value_counts().sort_index().plot.line(**kwargs)

柱状图和折线图区别

柱状图：

简单直观，很容易根据柱子的长短看出值的大小，易于比较各组数据之间的差别

折线图：

易于比较各组数据之间的差别

能比较多组数据在同一个维度上的趋势

每张图上不适合展示太多折线

面积图就是在折线图的基础上，把折线下面的面积填充颜色

python 复制代码

reviews['points'] .value_counts().sort_index().plot.area(**kwargs)

当只有一个变量需要制图时，面积图和折线图之间差异不大，在这种情况下，折线图和面积图可以互相替换