python爬虫常用的库

一剑丶飘香2024-02-26 9:29

Python爬虫常用的库包括但不限于以下几种：

请求库：
- `urllib`：Python3自带的库，用于发送HTTP请求，但现在可能被`requests`替代。1

`requests`：第三方库，功能强大，使用简单，是当前最常用的请求库。2

`Selenium`：自动化测试工具，用于模拟用户操作浏览器，适用于复杂页面。

解析库：
- `lxml`：第三方库，支持HTML和XML的解析，支持XPath的解析方式。
- `Beautiful Soup`：第三方库，API强大，使用方便。
- `pyquery`：类似jQuery的库，用于解析HTML文档，支持CSS选择器。
存储库：
- `PyMySQL`：MySQL的Python接口，用于存储数据。
- `PyMongo`：MongoDB的Python接口。
- `redis-py`：Redis的Python接口。
图像识别库：
- `tesserocr`：Python使用的OCR技术来识别图像。
爬虫框架：
- `pyspider`：国产的网络爬虫系统，具有丰富的WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器。
- `Scrapy`：功能强大，依赖库较多。

此外，还有其他一些常用的库，如`unirest for Python`、`hyper`、`PySocks`、`treq`、`aiohttp`等。

上一篇：C++11 Thead线程库的基本使用

下一篇：GitHub | 在 GitHub 上在线展示 Vue 项目

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 07AI科技热点日报 | 2026年07月01日 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结