Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...
爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

python 复制代码
import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")
相关推荐
用户019004783267几秒前
Python中:可迭代对象、迭代器、生成器、生成器表达式、列表推导式
python
假面骑士阿猫几秒前
TRAE配置OpenSpec实现SDD规范驱动开发
前端·人工智能·代码规范
2401_876907522 分钟前
《Python深度学习》
开发语言·python·深度学习
qwehjk20083 分钟前
分布式计算C++库
开发语言·c++·算法
222you3 分钟前
线程池的三个方法,七个参数,四个拒绝策略
java·开发语言
m0_716765233 分钟前
C++提高编程--仿函数、常用遍历算法(for_each、transform)详解
java·开发语言·c++·经验分享·算法·青少年编程·visual studio
哈哈哈哈哈哈哈哈8534 分钟前
WSL + Tailscale 导致 apt update 卡 0% 的解决方案
前端
JYeontu5 分钟前
程序员都是这样剪视频的?
前端
小雨cc5566ru6 分钟前
基于Nodejs+vue+ElementUI的大学生课程排课管理系统设计
前端·vue.js·elementui
BatyTao6 分钟前
Python从零起步6-文件及操作
python