【2026最新当当网爬虫分享】用Python爬取千本日本相关图书,自动分析价格分布!

您好,我是@iFeng的小屋,一枚4年程序猿。

一、爬取目标

我发现很多对日本文化、历史或文学感兴趣的朋友,或者做出版市场分析的小伙伴,想批量了解市面上相关图书的情况。手动去网站一页页翻,效率太低了。

所以,这次我写了这个当当网图书数据爬虫 。它不仅能根据关键词(比如"日本")批量抓取图书信息,还能自动对价格进行分段统计,用图表直观地展示出来,让你一眼看清市场分布。

目前是源码格式,还没有封装成软件,如果想要软件的我后续开发一个软件版本的。

二、展示爬取结果

三、原理讲解

  1. 分析当当网搜索页(如"日本"关键词)的链接规律,主要是 page_index 参数控制翻页。

  2. requests 库请求页面,用 lxmlXPath 精准定位并提取每一本书的详细信息。

  3. pandas 把抓到的数据存成表格(CSV格式)。

  4. 正则表达式 从价格字符串里把纯数字价格提取出来。

  5. 根据设定的价格区间(比如10-20万日元、20-30万日元)进行统计,最后用 matplotlib 画成一张漂亮的横向条形图。

三、爬虫代码讲解

导入库:

python 复制代码
import requests
from lxml import etree
import pandas as pd
import re
import matplotlib.pyplot as plt
3.1 核心思路与配置

运行需要配置请求头,模拟浏览器访问。其中,Cookie是关键,可以从浏览器开发者工具里获取。

python运行

3.2 关键步骤:抓取列表与翻页

核心是构造翻页URL,并循环抓取,直到满足数量要求。

python 复制代码
page = 1
while len(book_list) < 1000: # 目标:爬1000条
    url = f'http://search.dangdang.com/?key=%C8%D5%B1%BE&act=input&page_index={page}'
    response = requests.get(url, headers=headers)
    # ... 解析并存储数据
    page += 1 # 关键:页码加1,实现翻页
3.3 关键步骤:数据清洗与可视化

从原始字符串中提取纯数字价格,并定义区间进行统计绘图。

python 复制代码
# 1. 用正则表达式从'¥XX.XX¥'这种格式里提取价格数字
price_num = re.findall(r'¥(.*?)¥', price_string)

# 2. 定义价格区间并统计(此处逻辑需在完整源码中完善)
price_ranges = ['10-20万', '20-30万', '30+万']
# 3. 使用matplotlib绘制横向条形图
plt.barh(price_ranges, range_counts) # 绘制图表
plt.title('图书价格区间分布分析')
plt.show()

四、如何运行?

  1. 准备好环境 :安装依赖 pip install requests lxml pandas matplotlib

  2. 更新请求头 :将代码中的 headers 字典里的 Cookie 值,替换成你自己浏览器里的最新Cookie。

  3. 修改关键词(可选) :如果想爬其他主题,把URL里的 %C8%D5%B1%BE(这里是"日本"的编码)换成其他关键词的编码即可。

  4. 直接运行脚本 :程序会先爬取数据保存为 output_1.csv,然后自动弹出分析图表窗口。

五、说明

需要本文提到的完整可运行Python源码(包含数据清洗和可视化的完整逻辑)的小伙伴,我都放在了与此号同名的公主号里,大家自行获取。

持续分享Python干货中!更多爬虫源码干货,请前往主页查看。

相关推荐
yugi9878382 小时前
基于MATLAB的一键式EMD、EEMD、CEEMD和SSA信号去噪实现
开发语言·matlab·信号去噪
民乐团扒谱机2 小时前
【微科普】3D 演奏蠕虫分析图:解码音乐表演情感的 “可视化语言”
python·可视化·音乐·3d图·3d蠕虫
芝士爱知识a2 小时前
AlphaGBM 深度解析:下一代基于 AI 与蒙特卡洛的智能期权分析平台
数据结构·人工智能·python·股票·alphagbm·ai 驱动的智能期权分析·期权
热爱编程的小刘2 小时前
Lesson05&6 --- C&C++内存管理&模板初阶
开发语言·c++
数研小生2 小时前
关键词搜索京东列表API技术对接指南
大数据·数据库·爬虫
52Hz1182 小时前
力扣230.二叉搜索树中第k小的元素、199.二叉树的右视图、114.二叉树展开为链表
python·算法·leetcode
喵手2 小时前
Python爬虫实战:网页截图归档完全指南 - 构建生产级页面存证与历史回溯系统!
爬虫·python·爬虫实战·零基础python爬虫教学·网页截图归档·历史回溯·生产级方案
张3蜂3 小时前
Python 四大 Web 框架对比解析:FastAPI、Django、Flask 与 Tornado
前端·python·fastapi