Python爬虫下载小说

Tip

  • 这是一个非常简单的小说网站,读者可以拿来练习爬虫,练习xpath,文章内不让带网址,私信我获取网址。代码里有详细注释。

代码

python 复制代码
import requests as r
from lxml import etree
import re

## 根网址
base_url = "xxx"

## 小说id,即小说目录地址后的那一串数字
content_id = "xxx"

## 下载路径及文件名
myFile= "./小说名.txt"

## 获取html
items = r.get(base_url + "/" + content_id).text
html_body = etree.HTML(items).xpath("/html/body")


## 获取小说目录
## 这里采用了xpath的方式获取到类为listmain的div,并获取到其内部的dl,然后获取第二个dt之后的所有dd标签,获取每个dd标签下的a标签的href即为小说每一章的地址。
href = html_main.xpath("//div[@class='listmain']/dl/dt[2]/following-sibling::dd//a/@href")

## 打开文件并追加写入每一章的标题和内容,记得在最后处理一下\n\t和一些其它编码符。(可以适当添加延迟或者参考笔者之前的代理ip博客使用代理ip,否则可能会出现访问超时)
with open(myFile,"a", encoding="utf-8") as f:
    for item in href:
        res_content = ""
		# 拼接url
        url = base_url+item
        response = r.get(url).text
        res_html = etree.HTML(response)
        title = res_html.xpath("//div[@class='content']/h1/text()")[0]
        print("正在下载:"+title)
        res_content+=title
        res_content+='\n'
        contents = res_html.xpath("//div[@id='content']/text()")
        for content in contents:
            trans_content = re.sub(r'\xa0', '', content)
            res_content += content.replace("\xa0","").replace('\r','\t')
            res_content+='\n'
        f.write(res_content)
    print("下载完成")

其它爬虫文章

记一次用Python爬取代理IP并使用(尝试用代理IP制造直播房间访问量)
记一次用Python统计全国女性Size
Python爬虫------爬取阳光高考专业数据并对所有专业进行数据分析

相关推荐
顾林海6 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱9 小时前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
Caco_D12 小时前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
曲幽13 小时前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码14 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱1 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵1 天前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio1 天前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户0332126663671 天前
使用 Python 从零创建 Word 文档
python
Csvn1 天前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python