Python爬虫爬取网页小说

分析

注意:不同小说url不同,不同小说需采用的正则也不同

1.安装requests包

python 复制代码
pip install requests

2.导入必要的库

re模块用于进行正则表达式相关的操作,比如使用正则表达式在获取到的网页文本内容中匹配提取特定格式的信息。

resquests模块用于进行正则表达式相关的操作,比如使用正则表达式在获取到的网页文本内容中匹配提取特定格式的信息。

json模块用于处理 JSON 数据,方便将整理好的数据结构(字典)转换为 JSON 格式并保存到文件中。

小说选取

这里选取三国演义作为教学案例

检查页面源代码可得目录采集地址:

https://sanguo.5000yan.com/

目录采集代码实现

注意:不同小说url不同,不同小说需采用的正则也不同

python 复制代码
#导入必要的库
import re
import requests
import json
url="https://sanguo.5000yan.com/"
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
#发起伪造请求
response=requests.get(url,headers=headers)
#设置响应编码
response.encoding='UTF-8'
#查看相应数据
content=response.text
    #正则表达式匹配
p=r'<a target="(.*?)"\s+ href="(.*?)">(第.*?)</a>'
#提取匹配到的数据到列表中
chs=re.findall(p,content,re.DOTALL)

chapter=dict()
for ch in chs:
    chapter[ch[2]]=ch[1]
#最终的章节和链接数据
print(chapter)
#保存数据为json格式到文件
#文件可替换为自己的文件
with open('C:/Users/33692/Desktop/程序/chapter/mulu.txt',mode='wt',encoding='UTF-8') as file:
    json.dump(chapter,file)

部分代码解析

python 复制代码
chs=re.findall(p,content,re.DOTALL)

re.findall 是 re 模块提供的用于在字符串中基于正则表达式进行全面查找匹配的函数,其基本语法格式为 re.findall(pattern, string, flags=0),各参数含义如下:

pattern:对应代码中的 p,是一个定义好的正则表达式模式,用于精确描述要查找的文本的具体样式、特征等。例如,若 p 为r"<div>.*?</div>,表示要查找所有符合以 div开头、以 /div结尾的内容(这里 .*? 是非贪婪匹配模式,用于获取中间的文本内容)。

string:就是这里的 content,代表要进行查找操作的目标文本字符串。在这段代码的上下文中,content 通常是通过向网页发送请求获取到的网页源代码等文本信息(前面通过 response.text 获取到的网页文本内容),但也可以是其他任意符合字符串格式的文本数据,具体取决于应用场景。

flags:为可选参数,用于设定正则表达式的匹配行为,这里使用的 re.DOTALL 就是其中一种常用的标志选项。

re.DOTALL:

在正则表达式里,默认情况下 .(点号)这个元字符只能匹配除换行符之外的任意单个字符。但在实际处理类似网页 HTML 代码、文档等具有多行结构的文本时,很多时候希望 . 可以匹配包括换行符在内的所有字符,这时就需要使用 re.DOTALL 标志来改变 . 的默认匹配行为。

章节采集代码实现

python 复制代码
import requests,re
import time,random
import json
#加载需要采集的目录
with open('C:/Users/33692/Desktop/程序/chapter/mulu.txt',encoding='utf-8') as file:
    chs=json.load(file)
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
#遍历循环,发起伪造请求
for title,url in chs.items():
    print(f"准备采集:{title}")
    #发起伪造请求
    response=requests.get(url,headers=headers)
    #设置编码格式
    response.encoding="utf-8"
    html=response.text

    #正则匹配
    p=r'<div class="grap"><div>(.*?)</div></div>'
    content=re.findall(p,html,re.DOTALL)
    text=content[0]
	#正则去掉无关字符:\n\t等
    new_text = re.sub(r'[\r\n\t&lrdquoiv<>nbsp/;]', '', text)
    #转换为破折号
    clean_text = new_text.replace('&mdash;&mdash;', '------')

    with open('C:/Users/33692/Desktop/程序/chapter/三国演义.txt',mode="at",encoding='utf-8') as file:
        #保存文件
        file.write("\n\n"+title+"\n\n")
        file.write(clean_text)
        file.write("\n\n-------------------\n\n")
    #模拟用户请求,每次休眠5-10秒
    time.sleep(random.randint(1,5))
    print(f"{title}采集完成")

结果截图


相关推荐
雪碧聊技术14 分钟前
RabbitMQ3:Java客户端快速入门
java·开发语言·rabbitmq·amqp·spring amqp·rabbittemplate
Sinsa_SI21 分钟前
2024年9月中国电子学会青少年软件编程(Python)等级考试试卷(六级)答案 + 解析
开发语言·python·等级考试·电子学会·考级
济南信息学奥赛刘老师22 分钟前
GESP考试大纲
开发语言·c++·算法·青少年编程
许静知37 分钟前
第十章 JavaScript的应用
开发语言·javascript·ecmascript
froginwe1143 分钟前
SQLite Having 子句
开发语言
好开心331 小时前
js高级06-ajax封装和跨域
开发语言·前端·javascript·ajax·okhttp·ecmascript·交互
不惑_1 小时前
【Python入门第七讲】列表(List)
开发语言·python·list
无空念1 小时前
C++ STL - vector/list讲解及迭代器失效
开发语言·c++
雪的期许1 小时前
Python/GoLang/Java 多环境管理工具 pyenv/goenv/jenv
开发语言·python·策略模式
2401_858286111 小时前
L13.【LeetCode笔记】合并两个有序数组
c语言·开发语言·数据结构·笔记·算法·leetcode