Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...
爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

python 复制代码
import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")
相关推荐
2的n次方_8 分钟前
CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制
c语言·开发语言·架构
m0_736919108 分钟前
用Pandas处理时间序列数据(Time Series)
jvm·数据库·python
亓才孓8 分钟前
[JDBC]PreparedStatement替代Statement
java·数据库
getapi11 分钟前
实时音视频传输与屏幕共享(投屏)
python
大橙子额20 分钟前
【解决报错】Cannot assign to read only property ‘exports‘ of object ‘#<Object>‘
前端·javascript·vue.js
m0_4665252935 分钟前
绿盟科技风云卫AI安全能力平台成果重磅发布
大数据·数据库·人工智能·安全
java干货40 分钟前
为什么 “File 10“ 排在 “File 2“ 前面?解决文件名排序的终极算法:自然排序
开发语言·python·算法
_F_y40 分钟前
C语言重点知识总结(含KMP详细讲解)
c语言·开发语言
机器懒得学习41 分钟前
智能股票分析系统
python·深度学习·金融
毕设源码-郭学长41 分钟前
【开题答辩全过程】以 基于python的二手房数据分析与可视化为例,包含答辩的问题和答案
开发语言·python·数据分析