爬虫案例(读书网)

一.我们还是使用简单的bs4库和lxml,使用xpath:

导入下面的库:

python 复制代码
import requests
from bs4 import BeautifulSoup
from lxml import etree

我们可以看见它的div和每个书的div框架,这样会观察会快速提高我们的简单爬取能力。

二.实例代码:

python 复制代码
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
link="https://www.dushu.com/"
r=requests.get(link,headers=headers)
r.encoding='utf-8'

soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('div',class_="border books-center")
html=etree.HTML(r.text)
    # name=html.xpath('//div[@class="property-content-title"]/h3/text()')
# for house in house_list:
#     name=soup.find('div',class_="nlist").a.strong.text()
#
#     print(name)
name=html.xpath('//div[@class="bookname"]/a/text()')
# href=html.xpath('//div[@class="nlist"]/div/ul/li/a/@href')

print(name)
for i in name:
    print(i)

运行结果如下:

我们成功抓取了网页上书籍的名字,我们可以把它放入一个文件或者文本里面。

三.总结

我们简单的抓取书籍,先找到它需要的大div或者是ur、然后在里面找到自己需要抓取的数据,我们开始练习这样简单案例,会提高爬虫的理解。下次我会加上数据库和可视化

相关推荐
集大周杰伦几秒前
基于 Python 的 ADS 自动化仿真框架与 API 使用指南
python·自动化·ads 自动化仿真·ads 程控·ads python
傻啦嘿哟3 分钟前
Python高效实现Excel与TXT文本文件数据转换指南
开发语言·python·excel
我送炭你添花10 分钟前
我送炭你献花:Pelco KBD300A 模拟器项目总览
python·功能测试·pyqt·运维开发
青铜弟弟12 分钟前
R语言与python升级包的问题
开发语言·python·r语言
CappuccinoRose13 分钟前
Docker配置过程完整梳理
后端·python·docker·容器·环境配置
Michelle802315 分钟前
24大数据 15-2 线性查找和选择排序
python
MUTA️17 分钟前
使用flask将服务器端的视频通过网页在本地查看
后端·python·flask
木头左18 分钟前
记忆增强型注意力模块在量化交易策略中的长程依赖建模实践
python
l木本I20 分钟前
OpenArm开源项目总结(移植lerobot框架)
c++·人工智能·python·机器人
2401_8414956425 分钟前
【LeetCode刷题】轮转数组
数据结构·python·算法·leetcode·数组·双指针·轮转数组