一个高效的阿里云漏洞库爬虫工具,用于自动化爬取和处理CVE数据

工具介绍

阿里云漏洞库爬虫 (AliyunCVE_Crawler),一个高效的阿里云漏洞库爬虫工具,用于自动化爬取和处理CVE(Common Vulnerabilities and Exposures)数据。

🚀 功能特性

  • 批量爬取: 支持批量爬取阿里云漏洞库的CVE数据
  • 增量更新: 支持增量爬取,只获取指定日期后的新漏洞
  • 详细信息: 提取完整的CVE详情,包括描述、解决方案、CVSS评分等
  • 数据标准化: 自动转换为标准CVEInfo格式,便于后续处理
  • 并发处理: 支持异步并发爬取,提高效率
  • 智能重试: 内置错误处理和重试机制
  • 数据持久化: 自动保存爬取结果到JSON文件
  • 性能监控: 提供详细的爬取统计和性能指标
  • 🎨 现代GUI: 基于ttkbootstrap的现代化图形界面
  • 📊 数据可视化: 实时统计和结果展示
  • ⚙️ 可视化配置: 直观的参数设置和管理
  • ⏹️ 安全停止: 支持爬取过程中的安全中断和停止

🛠️ 安装

1. 克隆项目

bash 复制代码
git clone https://github.com/vistaminc/AliyunCVE_Crawler.git
cd AliyunCVE_Crawler

2. 安装依赖

bash 复制代码
pip install -r requirements.txt

3. 安装浏览器驱动

bash 复制代码
playwright install chromium

📖 快速开始

🎨 图形界面(推荐)

bash 复制代码
# 启动现代化GUI界面
python run_gui.py

GUI界面提供:

  • 🖱️ 直观的点击操作
  • 📊 实时数据展示
  • ⚙️ 可视化配置管理
  • 📈 爬取进度监控
  • 💾 一键导出功能

💻 命令行使用

bash 复制代码
# 爬取前10页数据
python main.py --pages 10

# 从第5页开始爬取10页
python main.py --pages 10 --start-page 5

# 增量爬取最近7天的数据
python main.py --incremental --days 7

# 显示浏览器界面(调试模式)
python main.py --pages 5 --no-headless

🐍 Python API

python 复制代码
import asyncio
from main import crawl_aliyun_cves

async def main():
    # 爬取前5页的CVE数据
    cve_infos = await crawl_aliyun_cves(max_pages=5)
    print(f"成功爬取 {len(cve_infos)} 个CVE")

asyncio.run(main())

工具下载

https://github.com/Vistaminc/AliyunCVE_Crawler

相关推荐
其美杰布-富贵-李1 小时前
爬虫中 XPath 使用完全指南
爬虫·xpath
喵手1 小时前
Python爬虫实战:城市停车收费标准自动化采集系统 - 让停车费透明化的技术实践(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·城市停车收费标准·采集城市停车收费数据·采集停车数据csv文件导出
生而为虫1 小时前
[Windows] 【浏览器自动化精灵V1.0】用Excel表格控制浏览器的自动化
运维·自动化
淡忘_cx2 小时前
使用Jenkins自动化部署vue项目(2.528.2版本)
vue.js·自动化·jenkins
风指引着方向2 小时前
昇腾 AI 开发生产力工具:CANN CLI 的高级使用与自动化脚本编写
运维·人工智能·自动化
掌心向暖RPA自动化2 小时前
影刀RPA如何在网页和桌面软件中实现自动滚动长截图?最好同时支持横向滚动纵向滚动的?
经验分享·自动化·影刀rpa·长截图
淡忘_cx3 小时前
使用Jenkins自动化部署spring-java项目+宝塔重启项目命令(2.528.2版本)
java·自动化·jenkins
喵手3 小时前
Python爬虫实战:采集菜谱网站的“分类/列表页”(例如“家常菜”或“烘焙”频道)数据,构建高可用的美食菜谱数据采集流水线(附CSV导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集菜谱网站数据·家常菜或烘焙频道·构建高可用食谱数据采集系统
喵手3 小时前
Python爬虫实战:硬核解析 Google Chrome 官方更新日志(正则+文本清洗篇)(附 CSV 导出)!
爬虫·python·爬虫实战·零基础python爬虫教学·csv导出·监控谷歌版本发布历史·获取稳定版更新日志
种时光的人3 小时前
CANN生态自动调优:cann-auto-tune 让AIGC大模型性能优化自动化、极致化
性能优化·自动化·aigc