Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...
爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

python 复制代码
import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")
相关推荐
2401_897190551 分钟前
怎样使用Navicat高级特权进行还原时解决字符集冲突_企业数据保护
jvm·数据库·python
幸运小圣2 分钟前
Array.prototype.reduce 全面解析【JS方法】
开发语言·javascript·原型模式
ZC跨境爬虫4 分钟前
3D 地球卫星轨道可视化平台开发 Day5(简介接口对接+规划AI自动化卫星数据生成工作流)
前端·人工智能·3d·ai·自动化
毛骗导演4 分钟前
Claude Code Agent 实现原理深度剖析
前端·架构
weixin_580614004 分钟前
c++文件锁使用方法 c++如何实现多进程文件同步
jvm·数据库·python
qq_330037994 分钟前
如何转换数据文件字节序_CONVERT DATAFILE用于跨OS平台数据库迁移
jvm·数据库·python
小蜜蜂嗡嗡6 分钟前
flutter 自定义走马灯,内部为Widget控件的走马灯效果二:横向无限匀速滚动+每个Item与屏幕左侧对齐时,停靠3秒再继续滚动
开发语言·flutter
白日梦想家6816 分钟前
博客二:递归实战避坑指南,从入门到熟练运用
开发语言·python
djjdjdjdjjdj7 分钟前
SQL窗口函数解决多维排名问题_组合排序实战
jvm·数据库·python
星晨雪海8 分钟前
若依框架原有页面功能进行了点位管理模块完整改造(3)
开发语言·前端·javascript