学习Python网络爬虫的实例

30岁程序员学习Python的第二天之网络爬虫的练习实例

爬取软科2025年中国大学排名

思路:

1、百度查到到网页地址:https://www.shanghairanking.cn/rankings/bcur/2025

2、编写爬取代码,具体步骤分3步,第一步通过requests库爬取网页全部信息。第二步将爬取的网页信息通过BeautifulSoup库进行解析,确定名单的标签组成结构,并将名单主体内容按数组的方式进行存储。第三步将数组内容按格式打印输出。

python 复制代码
import bs4
import requests
from bs4 import BeautifulSoup

#获取html页面
def get_html(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

#查到HTML中大学排名名单
def findUnivList(ulist,html):
    soup = BeautifulSoup(html, 'html.parser')
    for td in soup.find('tbody').children:
        if isinstance(td, bs4.element.Tag):
            tds = td('td')
            ulist.append([tds[0].div.string.replace(' ','').replace('\n',''), tds[1].find_all('span',attrs='name-cn')[0].string.replace(' ','').replace('\n',''), tds[2].text.replace(' ','').replace('\n',''),tds[4].string.replace(' ','').replace('\n','')])

#将大学排名榜单进行打印
def printUnviList(ulist,num):
    tplt = "{:^10}\t{:^10}\t{:^10}\t{:^10}"

    print(tplt.format("排名","学校名称","省市","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))

if __name__ == '__main__':
    #2025年国内大学排名网站
    ulist=[]
    url = "https://www.shanghairanking.cn/rankings/bcur/2025"
    html = get_html(url)
    findUnivList(ulist,html)
    printUnviList(ulist,20)

运行结果:

总结:在编写代码的过程中,遇到的第一个问题是程序提示TypeError: unsupported format string passed to NoneType.__format__错误,经过百度核查发现是,格式化输出时,由于该位置对应的内容为None,程序就会提示该错误。一层一层分析,发现造成该报错的实际原因是,解析获取大学所属省市时,用的tds2.string的形式,由于省市所在的td标签中除了具体省市外还存在注释内容,导致string不知道该返回那个数据而将None返回。

相关推荐
暴躁小师兄数据学院8 分钟前
【AI大模型应用开发工程师特训笔记】第04讲(第9章):文件目录操作
人工智能·笔记·python
小新同学^O^28 分钟前
Redis的简单总结
数据库·redis·学习
garmin Chen31 分钟前
LeetcodeHot100打卡(14、合并空间,15、轮转数组,16、除了自身以外数组乘积,17.缺失的第一个整数)
java·笔记·学习·算法
TechWayfarer1 小时前
IP精准定位服务在快递网点规划中的应用:如何用客户位置数据辅助选址
大数据·网络·python·tcp/ip·交通物流
CSND7401 小时前
零基础学Python合集---3:字符串的定义和常用方法
人工智能·python
五月君_1 小时前
放弃 Python,Kimi 用 TS + Node.js 重写了一个 Kimi Code
开发语言·python·node.js
还是鼠鼠1 小时前
AI掘金头条新闻系统 (Toutiao News)-获取用户信息
后端·python·mysql·fastapi·web
不羁的木木1 小时前
ArkWeb实战学习笔记04-JavaScript与Native通信
笔记·学习·harmonyos
Cloud_Shy6182 小时前
解读《Effective Python 3rd Edition》:从练气到老魔
开发语言·python
SunnyDays10112 小时前
Python 操作 Excel 超链接:添加网页、文件、工作表和图片链接
python·excel