pandas:读取各类文件方法以及爬虫时json数据保存

文件的读取与写入

| 常用读文件方法 | 说明 |

| -------------- | ---------------- |

| read_csv | 读取CSV文件 |

| read_excel | 读取Excel文件 |

| read_html | 读取网页HTML文件 |

| read_table | 通用读取方法 |

| 常用写文件方法 | 说明 |

| -------------- | ----------- |

| to_csv | 写csv文件 |

| to_excel | 写Excel文件 |

1、读取文件常用的参数

pandas.read_csv(

filepath_or_buffer=None,

sep=',',

delimiter=None,

header=None,

names=None,

index_col=None,

usecols=None,

skiprows=None,

na_values=None,

nrows=None,

chunksize=None,

encoding=None,

):

| 参数 | 说明 |

| ------------------ | ------------------------------------------------------------ |

| filepath_or_buffer | 读取文件的路径或对象 |

| sep/delimiter | 输出文件的字段分隔符, 默认字符"," |

| header | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |

| names | 自定义列名/列索引 |

| index_col | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |

| usecols | 只读取选中的列 |

| skiprows | 跳过行读取 |

| na_values | 个性化数据,将指定的数据变为缺失值NaN |

| nrows | 数据按指定行显示 |

| chunksize | 数据按指定行进行分块 |

| encoding | 设置编码格式 |

注意事项:

1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的

2、写入文件参数

```

df.to_csv(

path_or_buf=None,

sep=',',

columns=None,

header=True,

index_lable=None,

index=True,

encoding=None,)

```

| 参数 | 说明 |

| ----------- | ---------------------------------- |

| path_or_buf | 写入文件的路径或对象 |

| sep | 输出文件的字段分隔符, 默认字符"," |

| columns | 空值写入后的顺序,也可选列写入 |

| header | 布尔值,默认为True,写入列名称(索引) |

| index_label | 选择列作为 行索引 |

| index | 布尔值,默认为True,写入行名称(索引) |

| encoding | 设置写入的编码格式 |

excel表格读取写入特点

所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点

1、写入excel文件需要依赖模块-openpyxl

```python
安装: pip install openpyxl
```

2、读取excel文件需要依赖模块-xlrd

```
安装: pip install xlrd

df.to_excel(

excel_writer,

sheet_name="Sheet1",

columns=None,

header=True,

index=True,

index_label=None,

encoding=None,

)

```

| 特有的参数 | 说明 |

| ------------ | ------------------- |

| excel_writer | ExcelWriter目标路径 |

| sheet_name | excel工作表名命名 |

  • read_excel

pandas.read_excel(

io,

sheet_name=0,

header=0,

names=None,

index_col=None,

usecols=None,

skiprows=None,

nrows=None,

na_values=None,

)

```

| 特有的参数 | 说明 |

| ---------- | ------------------------------------------------------------ |

| io | excel路径 |

| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |

当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存

相关推荐
奔跑吧邓邓子12 分钟前
【家政平台开发(9)】家政平台数据分析需求:从采集到可视化全攻略
数据分析·需求分析·家政平台开发
满怀101520 分钟前
Python入门(5):异常处理
开发语言·python
莓事哒20 分钟前
使用pytesseract和Cookie登录古诗文网~(python爬虫)
爬虫·python·pycharm·cookie·pytessarct
赵钰老师25 分钟前
【Deepseek、ChatGPT】智能气候前沿:AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·数据分析
独好紫罗兰1 小时前
洛谷题单3-P1980 [NOIP 2013 普及组] 计数问题-python-流程图重构
开发语言·python·算法
freejackman1 小时前
Selenium框架——Web自动化测试
python·selenium·测试
独好紫罗兰1 小时前
洛谷题单3-P1009 [NOIP 1998 普及组] 阶乘之和-python-流程图重构
开发语言·python·算法
这里有鱼汤1 小时前
做量化没有实时数据怎么行?我找到一个超级好用的Python库,速度还贼快!
前端·后端·python
大美B端工场-B端系统美颜师1 小时前
定制化管理系统与通用管理系统,谁更胜一筹?
人工智能·信息可视化·数据挖掘·数据分析
Aerkui1 小时前
Python数据类型-int
开发语言·python