python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
飞Link2 分钟前
深入剖析 langchain_huggingface 核心 API 与本地化大模型部署实战
开发语言·python·langchain
zero159711 分钟前
Python 8天极速入门笔记(大模型工程师专用):第五篇-函数(def定义,大模型代码复用核心)
开发语言·python·ai编程
七夜zippoe13 分钟前
Python生态未来展望:从AI到科学计算——社区趋势与技术方向深度解析
开发语言·人工智能·python·技术方向·社区趋势
Python资讯站14 分钟前
【Pycharm教程】如何让PyCharm使用Docker配置Python解释器?你只需要看这篇就够了!
python·docker·pycharm·python基础·python学习·python教学·配置python解释器
源码之屋16 分钟前
计算机毕业设计:新能源汽车多维度数据分析系统 Django框架 Scrapy爬虫 可视化 数据分析 大数据 大模型 机器学习(建议收藏)✅
大数据·python·scrapy·django·汽车·课程设计·美食
好好学习,天天向上~19 分钟前
一套从 HTTP 抓取到动态页面爬取的 Python 全栈爬虫框架(附安装与实战)
爬虫·python·http
大数据新鸟24 分钟前
Java 泛型(Generic)完整使用指南
java·windows·python
Ulyanov1 小时前
构建企业级雷达电子战仿真引擎的工程化基础 第一篇:CI/CD流水线与自动化测试体系
python·ci/cd·架构·系统仿真·雷达电子战仿真
uNke DEPH9 小时前
初级爬虫实战——麻省理工学院新闻
爬虫
IAUTOMOBILE10 小时前
Python 流程控制与函数定义:从调试现场到工程实践
java·前端·python