爬虫项目(1)

1.节点

想要获取网页中的数据,首先要获取网页 HTML 代码,再把数据从中提取出来。

我们要向网页的服务器发送请求,服务器返回的响应就是网页 HTML 代码

节点

(1)文档节点:就是文档的内容;

(2)标签节点:就是html里面对应的标签;

(3)属性节点:就是html里面标签的属性,比如长度,外边距,内边距等等;

2.解析模块

对于一个网页的节点来说,它可以定义id、class或其他属性,而且节点之间还有层级关系。

我们可以借助网页节点的结构和属性,提取想要的信息。在这里,我们来学习一个强大的解析工具

------BeautifulSoup

3.解析器

网络爬虫的最终目的就是过滤选取网络信息,最重要的部分可以说是解析器。解析器的优劣决定了爬虫的速度和效率。

Beautiful Soup 官方推荐我们使用的是 lxml 解析器,原因是它具有更高的效率,所以我们也将采用lxml解析器。

5.导入类

安装完成后,我们需要使用 bs4 模块中的 BeautifulSoup 类。

这就要使用 from...import 从 bs4 中导入 BeautifulSoup 。

6.函数传参

BeautifulSoup() 函数可以把不标准的 HTML 代码重新进行了自动更正,从而方便我们对其中的节点、标签、属性等进行操作。

复制代码
soup = BeautifulSoup(html, "lxml")
print(soup)

这段代码调用函数BeautifulSoup,

这个函数有2个参数,第一个是需要进行解析的html代码,第二个是解析器的类型;

使用 BeautifulSoup() 函数,创建一个 BeautifulSoup 对象,传入 HTML 文本和解析器 lxml。

7.找到对应节点处的内容

文本所在的位置,包含在<em>XXX</em>这样的节点中,它们都有相同的标签。

使用 BeautifulSoup 中的 find_all() 函数,获取所有符合指定条件的节点。

复制代码
ps = soup.find_all(name = "h1")
print(ps)

find_all() 函数可以查询 soup 中所有符合条件的元素,组成一个列表赋值给ps。

8.代码的完整实现

复制代码
import requests

from bs4 import BeautifulSoup

url = "https://xxxxxxxxxxxxxxxxx/"

response = requests.get(url)

html = response.text

soup = BeautifulSoup(html,"lxml")

content_all = soup.find_all(name="em")

print(content_all)
相关推荐
jianghua0011 小时前
Python中的简单爬虫
爬虫·python·信息可视化
喵手1 小时前
Python爬虫实战:针对Python官网,精准提取出每一个历史版本的版本号、发布日期以及对应的文档/详情页链接等信息,并最终清洗为标准化的CSV文件!
爬虫·python·爬虫实战·零基础python爬虫教学·python官方数据采集·采集历史版本版本号等信息·导出csv文件
其美杰布-富贵-李1 小时前
爬虫中 XPath 使用完全指南
爬虫·xpath
喵手1 小时前
Python爬虫实战:城市停车收费标准自动化采集系统 - 让停车费透明化的技术实践(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·城市停车收费标准·采集城市停车收费数据·采集停车数据csv文件导出
喵手3 小时前
Python爬虫实战:采集菜谱网站的“分类/列表页”(例如“家常菜”或“烘焙”频道)数据,构建高可用的美食菜谱数据采集流水线(附CSV导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集菜谱网站数据·家常菜或烘焙频道·构建高可用食谱数据采集系统
喵手3 小时前
Python爬虫实战:硬核解析 Google Chrome 官方更新日志(正则+文本清洗篇)(附 CSV 导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·csv导出·监控谷歌版本发布历史·获取稳定版更新日志
深蓝电商API17 小时前
处理字体反爬:woff字体文件解析实战
爬虫·python
NPE~18 小时前
自动化工具Drissonpage 保姆级教程(含xpath语法)
运维·后端·爬虫·自动化·网络爬虫·xpath·浏览器自动化
喵手1 天前
Python爬虫实战:电商价格监控系统 - 从定时任务到历史趋势分析的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·电商价格监控系统·从定时任务到历史趋势分析·采集结果sqlite存储
摘星|1 天前
正则匹配与爬虫爬取图片路径综合练习
爬虫