python爬虫——抓取表格pandas当爬虫用超简单

pandas还能当爬虫用,你敢信吗?而且超级简单,两行代码就趴下来

只要想提取的表格是属于<table 标签内,就可以使用pd.read_html(),它可以将网页上的表格都抓取下来,并以DataFrame的形式装在一个列表中返回。

例子:

比如这个基金网站,想趴下基金的持仓股表格,

http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml

首先F12,页面元素点击表格内容,发现最上面的层级是<table,那么就可以用pandas直接抓!

代码如下:

python 复制代码
import pandas as pd
df = pd.DataFrame()
for i in range(6):
    url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={page}'.format(page=i+1)
    df = pd.concat([df,pd.read_html(url)[0]])
    print("第{page}页完成~".format(page=i+1))
df.to_csv('D:\\data.csv', encoding=gbk, index=0) #保存地址

就看到保存的CSV文件了

搞定。。!是不是超级简单,记得点个赞哦!

相关推荐
serve the people1 分钟前
python环境搭建 (七) pytest、pytest-asyncio、pytest-cov 试生态的核心组合
开发语言·python·pytest
java1234_小锋4 分钟前
分享一套不错的基于Python的Django宠物信息管理系统
开发语言·python·宠物
2401_841495645 分钟前
【Web开发】基于Flask搭建简单的应用网站
后端·python·flask·视图函数·应用实例·路由装饰器·调试模式
木卫二号Coding24 分钟前
第七十七篇-V100+llama-cpp-python-server+Qwen3-30B+GGUF
开发语言·python·llama
木卫二号Coding24 分钟前
第七十六篇-V100+llama-cpp-python+Qwen3-30B+GGUF
开发语言·python·llama
-To be number.wan25 分钟前
为什么 pyecharts 在 Jupyter Notebook 里显示空白?
ide·python·jupyter·数据分析
zhang61839925 分钟前
Linux中不同服务器之间迁移python 虚拟环境-conda-pack
linux·运维·python
忘忧记32 分钟前
用 Python 30 分钟做出自己的记事本
开发语言·python
Libraeking32 分钟前
深潜数据海洋 —— Libvio.link 爬虫技术全链路解析与实战
爬虫
电化学仪器白超43 分钟前
PPTSYNC软件配置①
python·单片机·嵌入式硬件·自动化