- Pandas Python的数据分析库,与Numpy配合使用,可以从常见的格式如CSV、JSON等中读取数据。可以进行数据清洗、数据加工工作。
- 数据结构Series,Pandas.Series(data,index,dtype,name,copy)
data类型是Numpy的ndarray类型,index指定下标,如果不给默认从0开始,name给series名字 - 数据类型DataFrame,Pandas.DataFrame(data,index,columns,dtype,copy)
- 利用Pandas读取CSV,以逗号或其他字符分隔,可以用Excel打开
- Pandas.read_csv("路径"),可以指定显示的行
- Pandas.info获取读取文件的信息
- 利用Pandas读取JSON,\转义,,分隔,{}保存对象,[]保存数组
- Pandas.read_json("路径")
- 可以直接将Python的字典以Json格式读入,字典里放字典
- 如果Json套Json,需要用Pandas.json_normalize(哪个Json,Json里的哪一类需要展平,需要将没展平的哪些列加以展示)进行展平
- 数据清洗,是数据预处理的一步
Pandas文档
- 不用背API,用到了去查文档
- DataFrame.duplicated()查看数据是否重复
- 打一下老师博文里的内容
Pandas博客资料
补充一点Pytorch基础
-
cafe,keras(合并到tensorflow)古老,没人用。tensorflow(Google 工业),pytorch(facebook 学业)
-
Pytorch的基本数据类型:张量,标量,向量,矩阵是特殊的张量。Pytorch可以在GPU上运行,Numpy不行。
Pytorch官方文档 -
Numpy和Pytorch。一个在CPU上运行,一个在GPU上运行,所以要互相转化。
PyTorch博客资料 -
要在Jupyter中使用Pytorch,需要创建带有Pytorch的Conda环境,然后在该core下打开Jupyter创建文件