软科中国大学排名爬虫+数据可视化

这一期是关于软科中国大学排名的爬虫分析

目标网址:https://www.shanghairanking.cn/rankings/bcur/2024

每页30所学校信息,共20页

点击翻页,你发现网址没有发生变化,说明该页面信息应该是利用js实现动态加载数据的方式展示的,所以我们无法通过 get 传参的方式来切换网页进行爬取。

接下来,按 F12 或者右键选择审查元素,搜索一下清华大学查看网页结构:

这里我们可以看到信息都在一个 payload.js 的文件里,继续查看可以发现这里有590所学校的所有信息,说明网页显示的内容是通过 javascript 解析这个文件动态加载进去的。

那我们只需要解析这个文件就好了,找到各个变量对应的值。

最终爬取到的数据:

完整代码评论区获取

相关推荐
学地理的小胖砸1 小时前
【GEE的Python API】
大数据·开发语言·前端·python·遥感·地图学·地理信息科学
尘心cx1 小时前
抽象类介绍
python
刘好念1 小时前
[Python]使用python统计docx文档字符、单词数
python·office
天启代理ip2 小时前
HTTP隧道代理:互联网冲浪的隐形翅膀
服务器·网络·爬虫·网络协议·tcp/ip
robot_大菜鸟2 小时前
python_openCV_计算图片中的区域的黑色比例
开发语言·python·opencv
AI让世界更懂你3 小时前
漫谈设计模式 [18]:策略模式
python·设计模式·策略模式
这不巧了3 小时前
Faker在pytest中的应用
python·自动化·pytest
oennn欧冷3 小时前
中文关键字检索分析-导出到csv或者excel-多文件或文件夹-使用python和asyncio和pandas的dataframe
python·pandas·vba·asyncio·dataframe·completablefuture
小言从不摸鱼3 小时前
【NLP自然语言处理】文本处理的基本方法
人工智能·python·自然语言处理
hummhumm3 小时前
数据库系统 第46节 数据库版本控制
java·javascript·数据库·python·sql·json·database