Python爬虫bs4的基本使用

BS4是Python中一个用于从HTML或XML文件中提取数据的库,它提供了一种方便的方法来解析、遍历、搜索、修改文档的树形结构。

一、安装导入:

使用包管理器进行安装:

pip3 install beautifulsoup4

导入:

from bs4 import BeautifulSoup

beautifulsoup的解析器:html.parser、lxml、html5lib

默认为:html.parser

二、基本语法及案例

由于bs是针对标签提取数据,所以主要语法是围绕着标签的

比如有如下一组数据:

python 复制代码
html='''
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
'''

BeautifulSoup(html, 'lxml')这行代码实际上是在调用BeautifulSoup类并创建一个新的对象,该对象代表了整个HTML或XML文档的内容。这个对象被赋值给变量soup,之后你就可以使用soup来访问和操作文档的内容了。

python 复制代码
soup=BeautifulSoup(html,'lxml')

参数一是目标数据参数二是解析器。此时soup中就放了完整结构的html数据。

接下来我们就可以对数据操作了。

比如我们要拿到title标签,打点调用即可:

python 复制代码
print(soup.title)

输出:

html 复制代码
<title>The Dormouse's story</title>

如果只想要内部的文字 ,需要string属性:

python 复制代码
print(soup.title.string)

如果想得到标签的名字 ,需要name属性:

python 复制代码
print(soup.title.name)

attrs会返回标签中的所有属性,返回的值是字典,这样我们就可以对属性进行操作了,还会根据属性的性质决定返回的类型。比如我们想得到p标签的name属性值:

python 复制代码
print(soup.p.attrs['name'])

这样就会得到:dromouse,其他属性值获取方式也相同,但返回值类型不同,比如class这种属性值可以复用的,可能出现多个所以会返回一个列表类型,而name返回的是字符串类型。

如果页面中有重复的标签,比如p标签,那么使用本文方式只能获得第一个。

相关推荐
鸡鸭扣1 小时前
数据结构与算法:栈和队列的python(deque)实现(附有leetcode题20、1047、150逆兰波表达式、347前k个高频元素题解)
数据结构·python·算法·leetcode·力扣··队列
计算机学姐2 小时前
基于php的民宿预订管理系统
开发语言·vue.js·windows·后端·php·intellij-idea·phpstorm
----云烟----2 小时前
QT中常见QImage、Pixmap、cv::Mat三种图像格式的转换
开发语言·qt
不知名舍友3 小时前
C++:采用模板封装顺序表,栈,队列
开发语言·c++·算法
想被带飞的鱼3 小时前
vue3中< keep-alive >页面实现缓存及遇到的问题
开发语言·前端·javascript·vue.js
python1564 小时前
Python Pandas数据处理效率提升指南
开发语言·python·pandas
孤单网愈云4 小时前
9.30Python基础-元组(补充)、字典、集合
python
小凡子空白在线学习4 小时前
8 非静态数据成员默认初始化
开发语言·前端·javascript
大母猴啃编程4 小时前
C++基础---类和对象(上)
c语言·开发语言·数据结构·c++·学习·算法·青少年编程
倩倩_ICE_王王4 小时前
PHP安装后Apache无法运行的问题
开发语言·php·apache·httpd.conf