python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
Dxy12393102167 分钟前
Python如何使用正则判断是否是姓名
数据库·python·mysql
进击的雷神14 分钟前
攻克多级导航循环与class属性ID提取:基于双层循环架构的精准爬虫设计
爬虫·架构
♪-Interpretation16 分钟前
第七节:Python的内置容器
开发语言·python
天若有情67324 分钟前
Python精神折磨系列(完整11集·无断层版)
数据库·python·算法
周末也要写八哥43 分钟前
返回函数(闭包):让return更“高阶
python
疯狂打码的少年1 小时前
【Day02 Java转Python】Python的ArrayList: list与tuple的“双面人生
java·python·list
暴力袋鼠哥1 小时前
基于 LightGBM 的山东高考智能择校推荐系统设计与实现
python·django·flask
5系暗夜孤魂1 小时前
当系统不再“透明”:从 Java 技术体系看大型工程的可观测性与可掌控性
java·python·压力测试
java1234_小锋1 小时前
Python高频面试题:python里面模块和包之间有什么区别?
开发语言·python