Selenium + Django + Echarts 实现亚马逊商品数据可视化爬虫项目

最近完成了1个爬虫项目,记录一下自己的心得。

项目功能简介

根据用户输入商品名称、类别名称,使用Selenium, BS4等技术每天定时抓取亚马逊商品数据,使用Pandas进行数据清洗后保存在MySql数据库中.

使用Django提供用户端功能,显示商品数据,以可视化的方式分析数据,以及数据抓取任务管理等。

项目技术难点:

1)亚马逊Anti-scrape 措施较多,页面都是动态网页,因此,页面元素分析,javascript分析工作量占据大部分时间。

2)性能优化,执行任务采用异步,多进程方式运行,提供定时任务管理功能。

3)Django模板中添加Echarts Javascript 脚本进行图表绘制,自定义 filter form 提供数据。 由于时间短,未使用Vue方式。

4)保持项目的扩展性:通过爬虫任务管理器满足用户的各类搜索需求。数据库分为原始数据以及清洗数据,中间的cleaning类可以随时扩展,

5)通用绘图接口功能: 由于绘图是通过模板中的javascript脚本完成,计划另写1套通用接口,将数据、绘图类型以参数方式传入,再向django 模板插入echarts绘图脚本,

合作说明

亚马孙的商品页面依据类别、用户所在地、收货地等不同而有所不同,但毕竟是大公司产品,其页面组织是规范的,因此本项目也很容易扩展。 如有对亚马逊数据分析的合作需求,留私信留言。

相关推荐
Muyuan19985 小时前
27.RAG 系统中的上下文充分性判断:从 Chunk 数量、FAISS 距离到 LLM Relevance Gate
python·django·pdf·fastapi·faiss
程序媛徐师姐9 小时前
Python基于Django的小区果蔬预定系统【附源码、文档说明】
python·django·小区果蔬预定系统·果蔬预定·python小区果蔬预定系统·小区果蔬预定·python果蔬预定系统
Python大数据分析@11 小时前
浏览器自动化工具 Selenium,Playwright,Puppeteer 做爬虫有哪些弊病?
爬虫·selenium·自动化
武帝为此1 天前
【Selenium 屏幕截图】
python·selenium·测试工具
码界筑梦坊1 天前
111-基于Python的中国旅游用户数据可视化分析系统
python·信息可视化·django·毕业设计·旅游
码界筑梦坊1 天前
114-基于Python的1688电脑硬件数据可视化分析系统
开发语言·python·信息可视化·数据分析·毕业设计·echarts·数据可视化
YJlio1 天前
10.2.8 以其他账户运行服务(Running services in alternate accounts):为什么“把服务切到某个用户账号下运行”,本质上是在改变服务的整个安全上下文?
python·安全·ios·机器人·django·iphone·7-zip
武帝为此1 天前
【Selenium 执行 JavaScript】
javascript·selenium·测试工具
小熊Coding1 天前
懂车帝汽车销售数据可视化分析系统
python·信息可视化·django·汽车·数据可视化分析·懂车帝·汽车销售数据分析
码界筑梦坊2 天前
112-基于Flask的游戏行业销售数据可视化分析系统
开发语言·python·游戏·信息可视化·flask·毕业设计·echarts