学习Python网络爬虫的实例

30岁程序员学习Python的第二天之网络爬虫的练习实例

爬取软科2025年中国大学排名

思路:

1、百度查到到网页地址:https://www.shanghairanking.cn/rankings/bcur/2025

2、编写爬取代码,具体步骤分3步,第一步通过requests库爬取网页全部信息。第二步将爬取的网页信息通过BeautifulSoup库进行解析,确定名单的标签组成结构,并将名单主体内容按数组的方式进行存储。第三步将数组内容按格式打印输出。

python 复制代码
import bs4
import requests
from bs4 import BeautifulSoup

#获取html页面
def get_html(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

#查到HTML中大学排名名单
def findUnivList(ulist,html):
    soup = BeautifulSoup(html, 'html.parser')
    for td in soup.find('tbody').children:
        if isinstance(td, bs4.element.Tag):
            tds = td('td')
            ulist.append([tds[0].div.string.replace(' ','').replace('\n',''), tds[1].find_all('span',attrs='name-cn')[0].string.replace(' ','').replace('\n',''), tds[2].text.replace(' ','').replace('\n',''),tds[4].string.replace(' ','').replace('\n','')])

#将大学排名榜单进行打印
def printUnviList(ulist,num):
    tplt = "{:^10}\t{:^10}\t{:^10}\t{:^10}"

    print(tplt.format("排名","学校名称","省市","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))

if __name__ == '__main__':
    #2025年国内大学排名网站
    ulist=[]
    url = "https://www.shanghairanking.cn/rankings/bcur/2025"
    html = get_html(url)
    findUnivList(ulist,html)
    printUnviList(ulist,20)

运行结果:

总结:在编写代码的过程中,遇到的第一个问题是程序提示TypeError: unsupported format string passed to NoneType.__format__错误,经过百度核查发现是,格式化输出时,由于该位置对应的内容为None,程序就会提示该错误。一层一层分析,发现造成该报错的实际原因是,解析获取大学所属省市时,用的tds[2].string的形式,由于省市所在的td标签中除了具体省市外还存在注释内容,导致string不知道该返回那个数据而将None返回。

相关推荐
s***46985 小时前
【玩转全栈】----Django模板语法、请求与响应
数据库·python·django
runepic6 小时前
Python + PostgreSQL 批量图片分发脚本:分类、去重、断点续拷贝
服务器·数据库·python·postgresql
GISer_Jing6 小时前
jx前端架构学习
前端·学习·架构
codists6 小时前
2025年11月文章一览
python
生而为虫6 小时前
31.Python语言进阶
python·scrapy·django·flask·fastapi·pygame·tornado
言之。6 小时前
Claude Code 实用开发手册
python
计算机毕设小月哥6 小时前
【Hadoop+Spark+python毕设】中国租房信息可视化分析系统、计算机毕业设计、包括数据爬取、Spark、数据分析、数据可视化、Hadoop
后端·python·mysql
2***c4357 小时前
Redis——使用 python 操作 redis 之从 hmse 迁移到 hset
数据库·redis·python
灰灰勇闯IT7 小时前
隐语MOOC三期学习感悟:解锁数据要素流通的“三维认知”与落地逻辑
笔记·学习
好奇龙猫7 小时前
日语学习-日语知识点小记-构建基础-JLPT-N3阶段-二阶段(25):语法和单词 第5-6课
学习