数据的4个等级

除了可以将数据分为定量和定性的,数据还可以分为以下4个等级,每个等级都有不同的控制和数学操作等级;

定类等级(nominal level)

定序等级(ordinal level)

定距等级(interval level)

定比等级(ratio level)

定类等级是数据的第一个等级,其结构最弱。这个等级的数据只按名称分类。例如,血型(A、B、O和AB型)、动物物种和人名。这些数据都是定性的。

在这个等级上,虽然不能执行任何定量数学操作(例如加法或除法),但是我们可以用Pandas的value_counts方法进行计数;

print(salary_ranges['Grade'].value_counts())

# Grade
# 0        61
# 7450     12
# 6870      9
# 7420      9
# 7170      9
#          ..
# 4310F     1
# 1063F     1
# 4290F     1
# 4267F     1
# 6465      1
# Name: count, Length: 688, dtype: int64

我们可以在定类等级上进行计数,因此可以绘制图表(如条形图)

import pandas as pd
import matplotlib.pyplot as plt

salary_ranges = pd.read_csv('./data/Salary_Ranges_by_Job_Classification.csv')
salary_ranges['Grade'].value_counts().sort_values(ascending=False).head(20).plot(kind = 'bar')
plt.show()

定序等级继承了定类等级的所有属性,同时具有以下重要附加属性:

定序等级的数据可以自然排序;

可以认为列中的某些数据比其他数据更好或更大。

和定类等级一样,定序等级的天然数据属性仍然是类别;

在定序等级,我们可以像定类等级那样进行计数,也可以引入比较和排序。因此,可以使用新的图表了。不仅可以继续使用条形图和饼图,而且因为能排序和比较,所以能计算中位数和百分位数。对于中位数和百分位数,我们可以绘制茎叶图和箱线图。

我们引入一个新的数据集来解释定序等级的数据。这个数据集表示多少人喜欢旧金山国际机场(IATA代码:SFO);可以看到数据集有3535行,每行有95个字段的数据;其中有一个定序字段是Q7A_ART,它有0-6七个数字值;

customer = pd.read_csv('./data/2013_SFO_Customer_survey.csv')
print(customer.shape)
print(customer['Q7A_ART'].value_counts().sort_values())

# (3535, 95)
# Q7A_ART
# 1      20
# 2      71
# 0     100
# 3     696
# 6     779
# 5     803
# 4    1066
# Name: count, dtype: int64

pandas默认会将Q7A_ART视为普通的数字字段;

art_ratings = customer['Q7A_ART']
print(art_ratings.describe())
# count    3535.000000
# mean        4.300707
# std         1.341445
# min         0.000000
# 25%         3.000000
# 50%         4.000000
# 75%         5.000000
# max         6.000000
# Name: Q7A_ART, dtype: float64

Pandas把这个列当作数值处理了,因为这个列充满数。然而我们需要知道,虽然这些值是数,但每个数其实代表的是类别,所以该数据是定性的,更具体地说,是属于定序等级。如果删除0和6这两个类别,剩下的5个有序类别类似于餐厅的评分

art_ratings = art_ratings[(art_ratings >=1) & (art_ratings <=5)]
art_ratings = art_ratings.astype(str)
print(art_ratings.describe())
# count     2656
# unique       5
# top          4
# freq      1066
# Name: Q7A_ART, dtype: object

定序等级除了可以可视化数据为饼图、条形图之外,还可以可视化为箱线图;

art_ratings.value_counts().plot(kind='pie')
plt.show()

art_ratings.value_counts().plot(kind='bar')
plt.show()

art_ratings.value_counts().plot(kind='box')
plt.show()

在定距等级,数值数据不仅可以像定序等级的数据一样排序,而且值之间的差异也有意义。这意味着,在定距等级,我们不仅可以对值进行排序和比较,而且可以加减。

在定距等级上可以进行加减,这改变了整个游戏规则。既然可以把值加在一起,就能引入两个熟悉的概念:算术平均数(就是均值)和标准差。

我们引入新的数据集,这个数据集有860万行,每行代表某个城市某月的平均温度,上溯到18世纪。

pd.options.display.max_columns = None
pd.set_option('expand_frame_repr', False)
climate = pd.read_csv('./data/GlobalLandTemperaturesByCity.csv')
print(climate.head())
#            dt  AverageTemperature  AverageTemperatureUncertainty   City  Country Latitude Longitude
# 0  1743-11-01               6.068                          1.737  Århus  Denmark   57.05N    10.33E
# 1  1743-12-01                 NaN                            NaN  Århus  Denmark   57.05N    10.33E
# 2  1744-01-01                 NaN                            NaN  Århus  Denmark   57.05N    10.33E
# 3  1744-02-01                 NaN                            NaN  Århus  Denmark   57.05N    10.33E
# 4  1744-03-01                 NaN                            NaN  Århus  Denmark   57.05N    10.33E

删除有缺失值的记录

print(climate.info())

climate.dropna(axis= 0 , inplace=True)
print(climate.info())

# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 8599212 entries, 0 to 8599211
# Data columns (total 7 columns):
#  #   Column                         Dtype
# ---  ------                         -----
#  0   dt                             object
#  1   AverageTemperature             float64
#  2   AverageTemperatureUncertainty  float64
#  3   City                           object
#  4   Country                        object
#  5   Latitude                       object
#  6   Longitude                      object
# dtypes: float64(2), object(5)
# memory usage: 459.2+ MB
# None
# <class 'pandas.core.frame.DataFrame'>
# Index: 8235082 entries, 0 to 8599210
# Data columns (total 7 columns):
#  #   Column                         Dtype
# ---  ------                         -----
#  0   dt                             object
#  1   AverageTemperature             float64
#  2   AverageTemperatureUncertainty  float64
#  3   City                           object
#  4   Country                        object
#  5   Latitude                       object
#  6   Longitude                      object
# dtypes: float64(2), object(5)
# memory usage: 502.6+ MB
# None
#
# Process finished with exit code 0

print(climate.isnull().sum())
# dt                               0
# AverageTemperature               0
# AverageTemperatureUncertainty    0
# City                             0
# Country                          0
# Latitude                         0
# Longitude                        0
# dtype: int64

AverageTemperature的不同值太多,无法像定序等级那样可视化饼图和条形图;

print(climate['AverageTemperature'].nunique())
# 103481

这个级别开始,最常用的图是直方图。直方图是条形图的"近亲",用不同的桶包含不同的数据,对数据的频率进行可视化。

climate['AverageTemperature'].hist()
plt.show()

查看美国各个世纪的平均气温

climate['dt'] = pd.to_datetime(climate['dt'])
climate['year'] = climate['dt'].map(lambda value:value.year)

climate_sub_us = climate.loc[climate['Country'] == 'United States']
climate_sub_us['century'] = climate_sub_us['year'].map(lambda value:int(value/100 + 1))
climate_sub_us['AverageTemperature'].hist(by=climate_sub_us['century'], sharex=True, sharey=True, figsize=(10,10), bins=20)
plt.show()

通过直线图也可以查看对应的平均气温变化;

climate['dt'] = pd.to_datetime(climate['dt'])
climate['year'] = climate['dt'].map(lambda value:value.year)

climate_sub_us = climate.loc[climate['Country'] == 'United States']
climate_sub_us['century'] = climate_sub_us['year'].map(lambda value:int(value/100 + 1))
climate_sub_us.groupby('century')['AverageTemperature'].mean().plot(kind = 'line')
plt.show()

因为差值在这个等级是有意义的,所以我们可以回答美国从18世纪至今平均温度上升多少这个问题

climate['dt'] = pd.to_datetime(climate['dt'])
climate['year'] = climate['dt'].map(lambda value:value.year)

climate_sub_us = climate.loc[climate['Country'] == 'United States']
climate_sub_us['century'] = climate_sub_us['year'].map(lambda value:int(value/100 + 1))
century_changes = climate_sub_us.groupby('century')['AverageTemperature'].mean()
print(century_changes)
print(century_changes[21] - century_changes[18])
# century
# 18    12.073243
# 19    13.662870
# 20    14.386622
# 21    15.197692
# Name: AverageTemperature, dtype: float64
# 3.124449115460898

定距及更高等级的一大好处是,我们可以使用散点图:在两个轴上绘制两列数据,将数据点可视化为图像中真正的点。在气候变化数据集中,year和averageTemperature列都属于定距等级,因为它们的差值是有意义的。

x = climate_sub_us['year']
y = climate_sub_us['AverageTemperature']
fig, ax = plt.subplots(figsize=(10, 5))
ax.scatter(x, y)
plt.show()

和预期一样,里面有很多噪声。考虑到每年每个城镇都会报告好几个平均气温,在图上每年有很多点也是理所应当的。我们用groupby清除年份的大部分噪声:

x = climate_sub_us['year'].unique()
y = climate_sub_us.groupby('year')['AverageTemperature'].mean()
fig, ax = plt.subplots(figsize=(10, 5))
ax.scatter(x, y)
plt.show()

对于等比等级,我们拥有最高程度的控制和数学运算能力。和定距等级一样,我们在定比等级上处理的也是定量数据。这里不仅继承了定距等级的加减运算,而且有了一个绝对零点的概念,可以做乘除运算。

通过旧金山的工资数据,可以看到Biweekly High Rate列处于定比等级,我们可以看一下最高的工资

fig = plt.figure(figsize=(15, 5))
ax = fig.gca()

salary_ranges.groupby('Grade')[['BiweeklyHighRate']].mean().sort_values('BiweeklyHighRate', ascending=False).head(20).plot.bar(stacked=False, ax=ax,color='darkorange')
ax.set_title('Top 20 Grade by Mean Biweekly High Rate')
plt.show()

我们用同样的办法查看工资最低的工作;

fig = plt.figure(figsize=(15, 5))
ax = fig.gca()

salary_ranges.groupby('Grade')[['BiweeklyHighRate']].mean().sort_values('BiweeklyHighRate', ascending=False).tail(20).plot.bar(stacked=False, ax=ax,color='darkorange')
ax.set_title('Bottom 20 Grade by Mean Biweekly High Rate')
plt.show()

我们可以计算最高工资和最低工资的比值;

sorted_df = salary_ranges.groupby('Grade')[['BiweeklyHighRate']].mean().sort_values('BiweeklyHighRate', ascending=False)
print(sorted_df.iloc[0][0]/sorted_df.iloc[-1][0])
# 13.931919540229886