python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
weixin_3077791318 分钟前
在AWS上使用Flume搜集分布在不同EC2实例上的应用程序日志具体流程和代码
python·flask·云计算·flume·aws
sirius123451231 小时前
自定义数据集 ,使用朴素贝叶斯对其进行分类
python·分类·numpy
shanks662 小时前
【PyQt】学习PyQt进行GUI开发从基础到进阶逐步掌握详细路线图和关键知识点
python·pyqt
weixin_307779133 小时前
流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码
大数据·python·音视频·aws
職場上的造物主3 小时前
高清种子资源获取指南 | ✈️@seedlinkbot
python·ios·php·音视频·视频编解码·视频
〖是♂我〗4 小时前
自定义数据集 使用scikit-learn中svm的包实现svm分类
开发语言·python
抱抱宝4 小时前
Pyecharts之特殊图表的独特展示
python·信息可视化·数据分析
deephub5 小时前
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
python·机器学习·gil
MatpyMaster6 小时前
基于PyQt5打造的实用工具——PDF文件加图片水印,可调大小位置,可批量处理!
python·pdf
go54631584656 小时前
python 从知网的期刊导航页面抓取与农业科技相关的数据
开发语言·python·科技