Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...
爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py

python 复制代码
import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")
相关推荐
罗汉松驻扎的工作基地1 分钟前
sql server开启远程(适用于2014、2017和2008R2)
运维·服务器·数据库
曹轲恒1 分钟前
Redis入门(1)
数据库·redis·缓存
superman超哥1 分钟前
Serialize 与 Deserialize Trait:Rust 类型系统与序列化的完美融合
开发语言·rust·开发工具·编程语言·rust序列化·rust类型·serialize
黎子越7 分钟前
python循环相关联系
开发语言·python·算法
myloveasuka7 分钟前
汉明编码的最小距离、汉明距离
服务器·数据库·笔记·算法·计算机组成原理
安然无虞8 分钟前
「正则表达式」精讲
开发语言·测试工具·正则表达式
Elastic 中国社区官方博客9 分钟前
Elasticsearch:使用 `best_compression` 提升搜索性能
大数据·运维·数据库·elasticsearch·搜索引擎·全文检索
csbysj202014 分钟前
DOM 解析器错误
开发语言
辰同学ovo15 分钟前
Pinia极速入门:核心概念与入门指南
前端·javascript·vue.js
先跑起来再说16 分钟前
Redis Stream 深入理解:它到底解决了什么问题
数据库·redis·缓存