python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
achene_ql8 分钟前
深入探索 RKNN 模型转换之旅
python·目标检测·rk3588·模型部署·rk3566
@十八子德月生1 小时前
8天Python从入门到精通【itheima】-1~5
大数据·开发语言·python·学习
每天一个秃顶小技巧2 小时前
02.Golang 切片(slice)源码分析(一、定义与基础操作实现)
开发语言·后端·python·golang
火龙谷3 小时前
【爬虫】12306查票
爬虫
安特尼3 小时前
招行数字金融挑战赛数据赛道赛题一
人工智能·python·机器学习·金融·数据分析
serve the people3 小时前
解决osx-arm64平台上conda默认源没有提供 python=3.7 的官方编译版本的问题
开发语言·python·conda
ζ小菜鸡4 小时前
我用Deepseek + 亮数据爬虫神器 1小时做出輿情分析器
爬虫·bright data
多多*4 小时前
Java反射 八股版
java·开发语言·hive·python·sql·log4j·mybatis
正在走向自律4 小时前
从0到1:Python机器学习实战全攻略(8/10)
开发语言·python·机器学习
西西弗Sisyphus5 小时前
Python 处理图像并生成 JSONL 元数据文件 - 灵活text版本
开发语言·python