1,Pandas
基于Numpy,用c写,还是用了MapplotLib便于处理数据的可视化。
numpy对数据非常的严格
强大的结构化的分析,处理工具
数据分析三剑客
pandas 数据结构,主要做数据分析,非常重要
numpoy 一种数据结构,机械学习中常用,做数据计算的基础库
matplotlib 图像化展示
numpy 主要处理数组型的数据
pandas主要处理除了数值型数据以外的数据,比如字符串,时间序列
2, 两种基本的数据结构
Series 一维数据 ,一个列
有二部分组成
index 不指定,自动创建
values 数据
DataFrame 二维数据
3,numpy
3.1 numpy的创建
3.1.1 np.array()
数组和列表的区别
a, 数组中数据类型必须相同
b.如果数组中有不同的数据类型,则根据优先级来转换为相同的数据类型的数据
字符串 > 浮点型 > 整形
c. numpy的数组可以存储图片,三维的数组,
列表中可以存不同类型的数据
2 plt
3 routines函数
zero ones linespace arange random系列
3.2 reshape 变形前后的数组的容量不可以发生变化
3.3 级联 一个或多个数组进项横行或纵向的拼接
axis 是纵向还是横向拼接 0 纵裂 1 横列
3.4 图片再数组中就是一个三维的数组
行,列,颜色\] 可以进行图片的切割,翻转,颜色的变换 3.5 常用的聚合操作 arr.sum() 全部元素的和 arr.sum(axis = 0) 每一列的数组的和 arr.sum(axis = 1) 每一行的数组的和 ·np。around(arr,decimails) 对数组每一个元素四舍五入 > 4,pandas 4.1 常用的2个类 series 简单的类型 类似于一维的数组 values 一组数据 ndarrya类型 index 数据的索引标签 隐式索引 默认的索引 显示索引 自己定义的索引 创建 列表或者numpy 数据创建 字典 常用属性 shape size index values 常用方法 head()默认显示前5个数据 tail()默认显示最后5个数据 unique 返回不重复的值,是一个数组 nuique 返回曲重复后的值的个数 value_counts 统计每个元素出现的个数 isnull 判断serice是否有空值 > 5, dataframe 基于series而来,实际就是多个series组成一个dataframe,简单来说就是一个表格型的数据结构 5.1 创建 dataframe =DataFrame() 字典创建 dic = { 'name' :\['zhangjian ','lisi','wangwu'\], 'salary' :\['1000,'2000,3000
}
df = DataFrame(data = dict)
df
5.2 DataFrame 属性
index 行索引
columes 列索引
data是数据的值