打卡学习Python爬虫第四天|bs4爬取优美图库的小清新图片

bs4解析比较简单,通过HTML的标签和属性去提取值,find(标签,属性="值")

但是需要了解HTML的语法知识,然后再使用bs4去提取,逻辑和编写难度就会比较简单和清晰。

bs4如何使用?如有如下HTML代码:

html 复制代码
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Simple HTML Table</title>
</head>
<body>

<table border="1">
  <tr>
    <td>Row 1, Cell 1</td>
    <td>Row 1, Cell 2</td>
  </tr>
  <tr>
    <td>Row 2, Cell 1</td>
    <td>Row 2, Cell 2</td>
  </tr>
  <tr>
    <td>Row 3, Cell 1</td>
    <td>Row 3, Cell 2</td>
  </tr>
</table>

</body>
</html>

bs4利用标签和属性去提取值,在什么代码中table是表格标签,tr是行,td是列。也就是这个HTML表格包含三个行(tr)和六个单元格(td)。

目标:爬取优美图库的小清新图片

思路:通过小清新图片的源代码获取子页面的链接,再将子页面的链接作为一个url,通过循环访问子页面来获取每一个子页面中的图片。

一、安装bs4(PyCharm终端输入)

bash 复制代码
pip install BeautifulSoup4

# 用清华源
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

二、 找到网页url

三、查看页面源代码

四、获取全部子链接

python 复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://www.umeituku.com/weimeitupian/xiaoqingxintupian/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
}
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'
# print(response.text)
page = BeautifulSoup(resp.text, 'html.parser')
div = page.find("div",class_="TypeList")

alist = div.find_all("a")
for i in alist:
    href = i.get("href")  # 通过get直接拿到属性值,即子页面链接
    print(href)

五、将子页面链接作为新的url访问

六、根据子页面源代码特征提取想要的内容

成功获取图片下载地址:

七、下载并保存图片

完整代码:

python 复制代码
import requests
from bs4 import BeautifulSoup

url = 'https://www.umeituku.com/weimeitupian/xiaoqingxintupian/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'
}
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'
# print(response.text)
page = BeautifulSoup(resp.text, 'html.parser')
div = page.find("div",class_="TypeList")

alist = div.find_all("a")
for i in alist:
    href = i.get("href")  # 通过get直接拿到属性值,即子页面链接

    z_resp = requests.get(href)  # href就是子页面的url
    z_resp.encoding = 'utf-8'
    z_page = BeautifulSoup(z_resp.text, 'html.parser')

    # p = z_page.find("p",align="center")
    # img = p.find("img")
    # src = img.get("src")
    src = z_page.find("p",align="center").find("img").get("src")
    # 下载图片
    img_resp = requests.get(src)
    img_resp.content  # 图片二进制数据

    with open("./img/"+src.split("/")[-1], "wb") as f:
        f.write(img_resp.content)
        print("下载成功")
    f.close()
    z_resp.close()
resp.close()
相关推荐
zhousenshan1 小时前
Python爬虫常用框架
开发语言·爬虫·python
茯苓gao1 小时前
STM32G4 速度环开环,电流环闭环 IF模式建模
笔记·stm32·单片机·嵌入式硬件·学习
是誰萆微了承諾1 小时前
【golang学习笔记 gin 】1.2 redis 的使用
笔记·学习·golang
IMER SIMPLE1 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
CodeCraft Studio1 小时前
国产化Word处理组件Spire.DOC教程:使用 Python 将 Markdown 转换为 HTML 的详细教程
python·html·word·markdown·国产化·spire.doc·文档格式转换
DKPT2 小时前
Java内存区域与内存溢出
java·开发语言·jvm·笔记·学习
aaaweiaaaaaa2 小时前
HTML和CSS学习
前端·css·学习·html
专注API从业者2 小时前
Python/Java 代码示例:手把手教程调用 1688 API 获取商品详情实时数据
java·linux·数据库·python
java1234_小锋2 小时前
[免费]基于Python的协同过滤电影推荐系统(Django+Vue+sqlite+爬虫)【论文+源码+SQL脚本】
python·django·电影推荐系统·协同过滤
deepwater_zone3 小时前
网络爬虫(web crawler)
爬虫