python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
Wzx1980121 分钟前
自研开发的前后端项目部署流程
vue.js·python
西红市杰出青年10 分钟前
crawl4ai------AsyncPlaywrightCrawlerStrategy使用教程
开发语言·python·架构·正则表达式·pandas
写代码的【黑咖啡】13 分钟前
Python 中的 sqlite3 模块:轻量级数据库的完美搭档
数据库·python·sqlite
半路_出家ren14 分钟前
20.基于Selenium实现界面自动化控制
运维·python·selenium·测试工具·网络安全·自动化·chromedriver
计算机毕业设计指导14 分钟前
恶意网址检测系统
python·web安全·网络安全·系统安全
一招定胜负18 分钟前
模板匹配与银行卡号识别(预告)
python·opencv·计算机视觉
七夜zippoe21 分钟前
实时数据处理:Kafka与Python构建高可靠流处理系统
分布式·python·kafka·集群·流处理·exactly-once
ai_top_trends23 分钟前
2026 年 AI 生成 PPT 工具推荐清单:测评后给出的答案
人工智能·python·powerpoint
a程序小傲24 分钟前
中国邮政Java面试被问:Kafka的Log Compaction实现和删除策略
java·开发语言·后端·python·面试·职场和发展·kafka
感觉不怎么会24 分钟前
Android 4.4 - APN类型扩展(一)
android·开发语言·python