python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
myzzb13 分钟前
纯python 最快png转换RGB截图方案 ——deepseek
开发语言·python·学习·开源·开发
宸迪18 分钟前
【python】使用uv管理项目包依赖
linux·python·uv
qq_4480111624 分钟前
python中的内置globals()详解
开发语言·python
weixin_4404016936 分钟前
Coze-智能体Agent(工作流:自定义插件+选择器+知识库检索+大模型润色)
python·ai·coze
Ulyanov1 小时前
基于Python的单脉冲雷达导引头回波生成技术
python·算法·仿真·单脉冲雷达、
deepxuan1 小时前
Day2--python三大库-numpy
开发语言·python·numpy
徐同保1 小时前
python如何手动抛出异常
java·前端·python
Dxy12393102163 小时前
Python检查JSON格式错误的多种方法
前端·python·json
Lightning-py3 小时前
ASCII,十进制,十六进制,八进制和二进制转换表
python
laplace01234 小时前
deque+yield+next语法
人工智能·笔记·python·agent·rag