【无标题】 - 技术栈

1. DataFrame认知

DataFrame 是 Pandas 中的另一个核心数据结构，类似于一个二维的表格或数据库中的数据表。
DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。
DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。
DataFrame 提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。
DataFrame 是一个非常灵活且强大的数据结构，广泛用于数据分析、清洗、转换、可视化等任务。

资料： https://www.runoob.com/

2. DataFrame的创建

创建语法：

python 复制代码

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

二维的、大小可变的（可以增删行、增删列）、可存储不同类型数据的表格型数据。该数据结构包含带标签的轴（行标签和列标签），算术运算会根据行标签和列标签自动对齐。是 pandas 中最主要（核心）的数据结构。

参数	含义
data	支持的数据类型：字典、数组、可迭代对象、dataframe、Series
index	默认是0，1，2，...n-1
columns	默认为0，1，2，...n-1，若数据data中包含列标签，则保留columns指定的列。即当数据data中没有列名，使用指定的列名；当数据data中包含列名，只保留columns中指定的列
dtype	默认为None，强制指定的数据类型。只允许传入一种数据类型。如果为 None，则自动推断。
copy	布尔值，默认为None。控制新表格和原数据是不是同一份数据。字典创建：DataFrame默认 = 复制（安全）；DataFrame / 二维数组创建：默认 = 不复制（省内存）字典里有 Series：用 copy=False 能完全不复制，共用数据

python 复制代码

# 1.通过字典创建dataframe
print('**********df1***********')
dct1 = {"name":('lisa','jane','liming'),
       'age':[19,20,21]}

df1 = pd.DataFrame(dct1)
print(df1)

# 2.通过包含Series的字典创建dataframe
# 2.1 Series中不指定index
print('**********df2***********')
dct2 = {'course':['math','history','physics','chemisty'],
'score':pd.Series([99,88,77,66])}

df2 = pd.DataFrame(dct2)
print(df2)
# 2.2 Series中指定index
print('**********df3***********')
dct3 = {'city':['北京','广州','上海','苏州'],
    'course':['math','history','physics','chemisty'],
'score':pd.Series([99,88,77,66],index=['张三','李四','王五','孙六'])}

df3 = pd.DataFrame(dct3)
print(df3)
# 2.3 多个Series中指定index,但其中还有普通列表，只有4个元素无法与合并后的6个索引匹配，报错
# ValueError: array length 4 does not match index length 6

# dct4 = {'city':['北京','广州','上海','苏州'],
#     'course':pd.Series(['math','history','physics','chemisty'],
#                        index=['赵二','张三','钱七','王五']),
#         'score':pd.Series([99,88,77,66],index=['张三','李四','王五','孙六'])}
#
# df4 = pd.DataFrame(dct4)
# print(df4)
print('**********df4***********')
# 2.3 多个Series中指定index,自动按索引对齐
dct4 = {'city':pd.Series(['北京','广州','上海','苏州'],
                         index=['周九','赵二','张三','钱七']),
    'course':pd.Series(['math','history','physics','chemisty'],
                       index=['赵二','张三','钱七','王五']),
        'score':pd.Series([99,88,77,66],index=['张三','李四','王五','孙六'])}

df4 = pd.DataFrame(dct4)
print(df4)

print('**********df5***********')
# 3. 通过array()数组创建dataframe

ar1 = np.array(np.random.randint(0,100,size=(4,3)))
df5 = pd.DataFrame(ar1,columns=['aa','bb','cc'])
print(df5)


print('**********df6***********')
# 通过dataframe创建

df6 = pd.DataFrame(df5,columns=['aa','cc'])
print(df6)

创建总结：

普通字典（列表 / 元组为值）构建

字典键作为 DataFrame 列名，字典内列表、元组数据按位置组成各列，所有容器元素长度必须保持一致，生成后默认生成从 0 开始的数字行索引，数据按顺序一一对应填充。
字典混用无索引 Series 与普通列表构建

未自定义索引的 Series 和普通列表规则一致，依靠下标位置匹配数据，要求所有数据长度相同；一旦字典内出现带自定义索引的 Series，就会整合全部索引扩充行数量，搭配固定长度无索引列表时，行列长度不一致直接触发报错。
全自定义索引 Series 组成字典构建

字典所有值全部为带独立索引的 Series 时，DataFrame 会汇总全部行索引并自动对齐数据，索引匹配成功填入原值，无匹配项填充缺失值 NaN，不受各 Series 索引顺序、元素数量差异影响，不会报长度错误。
数组、已有 DataFrame 数据源构建

使用二维 numpy 数组创建时，数组每行对应表格一行，可通过 columns 参数自定义列名，默认数字行索引；依托现有 DataFrame 新建表格时，借助 columns 参数可筛选指定列，填写原表不存在的列名会生成全 NaN 新列。

3. DataFrame常用属性

属性	含义
dtypes	返回 DataFrame的数据类型
index	返回DataFrame的行标签
columns	返回DataFrame的列标签
values	返回DataFrame的数据值
shape	返回DataFrame的形状（m*n）
ndim	返回DataFrame的维度
size	返回DataFrame的数据个数：m*n
loc	通过行标签、列标签获取DataFrame数据
iloc	基于纯整数位置的索引，用于按位置选取数据。不管行标签、列标签叫什么，只看 "第几个"