Python爬虫教程第5篇-使用BeautifulSoup查找html元素几种常用方法

文章目录

简介

上一篇详细的介绍了如何使用Beautiful Soup的使用方法,但是最常用的还是如何解析html元素,这里再汇总介绍下查询html元素的一些方式,比如通过id查找、通过xpath查找、通过css查找等方式的最佳实践。

find()和find_all()

这两个方法参数差不多,区别在于find返回一个,find_all可能返回多个,find底层调用的也是find_all只是设置里limit=1。所以下面讲到的一些用法不区分是find还是find_all

字符串

python 复制代码
soup.find_all('b')

查找所有标签是b的tag

通过id查找

keyword: key=value的形式,value可以是过滤器:字符串 , 正则表达式 , 列表, True .

python 复制代码
soup.find(id='xxxx')
soup.find(id=re.compile('my'))

id是标签的属性,一般用于唯一元素定位

通过属性查找

上面id其实也是tag的一个属性,所以展开就是taq的属性可以类似查找.比如:

python 复制代码
soup.find(class='xxxx')

通过.方式查找

这种比较直观,有点像链式调用,其实能直接看出html的层级结构

python 复制代码
soup.head.title

通过CSS选择器查找

css路径可以通过下图这种方式在页面上快速定位:

#s_xmancard_news_new > div > div.s-news-rank-wrapper.s-news-special-rank-wrapper.c-container-r > div > div > ul

python 复制代码
soup.select('#s_xmancard_news_new > div > div.s-news-rank-wrapper.s-news-special-rank-wrapper.c-container-r > div > div > ul')

通过xpath查找

xpath全称为XML Path Language, 一种小型的查询语言,实现的功能与re以及bs一样,但是大多数情况会选择使用xpath。由于XPath属于lxml库模块,所以首先要安装库lxml。xpath路径查找:

//*@id="s_xmancard_news_new"/div/div1/div/div/ul

python 复制代码
from lxml import etree

selector=etree.HTML('')   # 将源码转化为能被XPath匹配的格式
# <Element html at 0x29b7fdb6708>
ret = selector.xpath('//*[@id="s_xmancard_news_new"]/div/div[1]/div/div/ul')     # 返回为一列表

正则表达

python 复制代码
# name: 搜索name参数的值可以使任一类型的 过滤器 ,字符窜,正则表达式,列表,方法或是 True .
soup.find_all(name=re.compile('^t'))

自定义方法

python 复制代码
# 如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
 
soup.find_all(has_class_but_no_id)    

或者使用匿名函数

python 复制代码
soup.find_all(lambda tag: True if tag.has_attr("class") and tag.has_attr("id") else False)

总结

更多使用方法参考官网:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#id7

相关推荐
如烟花的信页12 小时前
*花顺cookie逆向分析
javascript·爬虫·python·js逆向
笑虾12 小时前
Python + FontTools 自动生成字体子集工具 & FontForge 实现字体加粗
python·字体子集
popcorn_min12 小时前
Wholesale Customers 聚类实验:用 K-Means 给批发客户分群
python
AC赳赳老秦12 小时前
OpenClaw+AWS 深度应用:自动生成 CloudFormation 模板、批量管理 S3 存储桶
java·python·面试·职场和发展·php·deepseek·openclaw
萤萤七悬12 小时前
【Python笔记】AI帮封装Airtest IOS-WDA touch操作时的factor坐标转换
笔记·python·ios
qq36219670512 小时前
Telegram APK 下载安装完整指南 — 2026年最新
android·人工智能·爬虫·chatgpt·智能手机
myenjoy_112 小时前
采集链路诊断与可观测性——当数据不“对“的时候,你在第几层排查?
python
码界索隆12 小时前
Python转Java系列:语法与类型系统
java·开发语言·python
砍材农夫13 小时前
python 如何一次性安装项目所有依赖包(pip和uv)
开发语言·python·pip·uv
yijianace13 小时前
Python爬虫项目实战:从 BeautifulSoup 到 XPath
爬虫·python·beautifulsoup