【Selenium爬取小说】

Selenium爬取小说

确定url

找到你所需要的网站 然后进行分析检查 。

==注意: 进行搜索元素时 会有一个ctrl+f的操作

看class 或者 id 后面等于的值的时候 match 不一定是1 但是只要 这个标签下id=的这个值是唯一标识的即可 ,因为你搜索的是全部的整个页面下的这个值 但是class[id=xxx]这个会可能是唯一的。

进行分析页面在爬取

可以发现都在dd标签下

多层爬取 进入这个页面 然后爬取这一章的内容

可以发现内容都在这个标签下

我们打开一个文件接受这个文本即可

爬虫代码

python 复制代码
import time
from selenium import webdriver
from selenium.webdriver.common.by import By

file = open('./output/xxx/明克街13号.txt','a',encoding= 'utf-8')
driver = webdriver.Firefox()
url = 'https://www.xxxxx.bz/book/54529/'
driver.get(url)
dd_list =driver.find_elements(By.XPATH,"//div[@id='list']/dl/dd")
print(dd_list)
number = 1
for i in range(12,len(dd_list)):
    print(f'爬取第{number}章')
    detail_url = dd_list[i].find_element(By.XPATH,'a').get_attribute('href')
    print(detail_url)
    driver_chmo = webdriver.Chrome()
    driver_chmo.get(detail_url)
    response = driver_chmo.find_element(By.XPATH,'//div[@id="content"]')
    print(response.text)
    file.write(response.text+f'\n   第{number}章   \n')
    number = number + 1
    time.sleep(3)
file.close()

爬取的结果

欢迎批评指正

相关推荐
APIshop6 分钟前
用“爬虫”思路做淘宝 API 接口测试:从申请 Key 到 Python 自动化脚本
爬虫·python·自动化
谷粒.14 分钟前
API测试全解析:从基础到性能压测
java·运维·网络·人工智能·python·测试工具·自动化
月亮!15 分钟前
敏捷开发中测试左移的5个关键实践
java·人工智能·python·selenium·测试工具·测试用例·敏捷流程
Wpa.wk28 分钟前
自动化测试-显示等待高级使用
经验分享·selenium·测试工具·显示等待高级
初遇见16 小时前
【Postman 白屏加载问题及解决方案】
测试工具·postman
xinxinhenmeihao17 小时前
爬虫如何使用代理IP才能不被封号?有什么解决方案?
爬虫·网络协议·tcp/ip
天才测试猿18 小时前
Postman接口测试:如何导入swagger接口文档?
自动化测试·软件测试·python·测试工具·职场和发展·接口测试·postman
卓码软件测评21 小时前
【第三方CNAS软件测试机构:Gatling中的资源监控_实时收集服务器CPU、内存、磁盘I/O和网络指标】
后端·测试工具·测试用例·scala·压力测试
一念一花一世界1 天前
接口管理工具选型:Swagger与PostIn全面对比指南
测试工具·postman·swagger·postin·接口管理工具
2501_938810111 天前
什么IP 适用爬虫 采集相关业务
爬虫·网络协议·tcp/ip