3.4.1 爬取王者荣耀英雄皮肤实战

第四节:爬取王者荣耀英雄皮肤实战

课程目标

  • 爬取王者荣耀英雄皮肤实战

课程内容

编码实现
爬虫部分
python 复制代码
import requests  # 导入requests库,用于发送HTTP请求
from fake_useragent import UserAgent  # 导入UserAgent库,用于生成随机的User-Agent
import time  # 导入time库,用于添加延时
import bs4  # 导入BeautifulSoup库,用于解析HTML

import os  # 导入os库,用于操作文件系统

# 设置目标网页的URL
url = "https://pvp.qq.com/web201605/herolist.shtml" 

# 创建UserAgent对象,用于生成随机User-Agent
us = UserAgent()

# 设置HTTP请求的headers,模拟浏览器访问
headers = {
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "cache-control": "max-age=0",
    "priority": "u=0, i",
    "sec-ch-ua": "\"Chromium\";v=\"128\", \"Not;A=Brand\";v=\"24\", \"Microsoft Edge\";v=\"128\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "document",
    "sec-fetch-mode": "navigate",
    "sec-fetch-site": "none",
    "sec-fetch-user": "?1",
    "upgrade-insecure-requests": "1",
    "user-agent": us.random  # 使用UserAgent生成的随机User-Agent
}

# 发送GET请求获取网页内容
res = requests.get(url=url, headers=headers)

# 修改相应内容解码,因为网页编码可能是GBK
html_text = res.content.decode('gbk')

# 使用BeautifulSoup解析HTML内容
soup = bs4.BeautifulSoup(html_text, 'html.parser')

# 找到包含英雄列表的<ul>标签
ul = soup.find("ul", {"class": "herolist clearfix"})

# 找到所有<li>标签,代表每个英雄
lis = ul.find_all('li')

# 设置图片保存的目录
save_dir = "imgs"
os.makedirs(save_dir, exist_ok=True)  # 如果目录不存在,则创建它

# 遍历每个英雄的<li>标签
for li in lis:
    # 获取英雄图片的URL
    src = li.a.img.get('src')
    # 获取英雄的名字
    name = li.a.img.get('alt')
    # 补全图片URL
    src_url = "https:" + src
    # 发送请求下载图片
    img_res = requests.get(src_url, headers=headers)
    # 定义图片保存的路径
    base = os.path.join(save_dir, f"{name}.jpg")
    # 打开文件并写入图片内容
    with open(base, "wb") as f:
        f.write(img_res.content)
    # 打印下载完成的信息
    print(f"{name} 皮肤下载完成,保存路径为 {base}")
    # 等待1秒,防止请求过快
    time.sleep(1)
相关推荐
m0_674294641 分钟前
CSS如何实现左图右文布局_利用float属性与清除浮动
jvm·数据库·python
weixin_424999362 分钟前
Bootstrap制作后台管理系统布局 Bootstrap如何搭建Dashboard框架
jvm·数据库·python
baidu_340998823 分钟前
mysql表名大小写敏感问题如何处理_Lower Case Table Names设置
jvm·数据库·python
m0_674294643 分钟前
TensorFlow如何监控内存使用情况_结合tf.summary记录关键指标信息
jvm·数据库·python
2301_815279523 分钟前
c++ 游戏性能分析telemetry c++如何设计一个遥测系统
jvm·数据库·python
2301_764150565 分钟前
HTML图片怎么用UnoCSS对齐_UnoCSS原子化CSS图片对齐实战.txt
jvm·数据库·python
2401_883600256 分钟前
SQL处理分组聚合中的数据一致性_使用事务保证
jvm·数据库·python
johnny23310 分钟前
Python Web服务器网关接口:WSGI、ASGI、RSGI、uWSGI、uwsgi、Gunicorn、Uvicorn
python
weixin_4087177710 分钟前
为什么宝塔面板定时访问URL任务总是报502_检查目标接口响应时间与延长任务执行超时设置
jvm·数据库·python
小陈工10 分钟前
python Web开发从入门到精通(二十七)微服务架构设计原则深度解析:告别拆分烦恼,掌握治理精髓(上)
后端·python·架构