python - 爬虫简介

六经注我2023-08-10 16:26

什么是爬虫？

模拟浏览器对网站服务器发送请求
解析服务器返回的响应数据，并保存数据

爬虫能获取哪些数据？

原则上所有可以通过浏览器获取的数据都可以爬取
爬虫也只能获取爬取浏览器可以正常获取的数据

爬虫的应用场景？

数据分析 (如电影票房、股票信息、商品销量等)
舆情监控(如微博、论坛等)
搜索引擎刷浏览播放量等(如各类自媒体账号)
抢票投票(对购票、投票接口发送请求)
网络安全(短信轰炸- 多个网站发送验证码)

为什么会有反爬?

防止有价值的数据被恶意获取
封锁垃圾流量，降低服务器的压力和运行成本

爬虫与反爬的对抗？

部分数据需要登录才能获取
通过验证码甄别真人与爬虫
监测同一IP 地址单位时间内的请求量
请求需要携带特定的数据
响应数据被加密，需要特定的算法解密

学习内容

如何爬取网页数据? （如何对服务器发送请求，获取源文件）
- Requests 模块（对服务器发送请求，获取数据）
- 模拟真实浏览器状态
- 设置 Proxy 代理IP（避免单个ip发送过快，被服务器认为是爬虫）
如何提取关键数据?（如何在源文件中获取有用的数据）
- 正则表达式
- XPath 表达式
如何储存提取到的数据?
- MongoDB 数据库
Scrapy 框架爬取海量数据
- 集成发送请求，数据解析，数据保存
- Scrapy 结合 MongoDB 储存数据
Scrapy-Redis 分布式爬虫（多个机器共同爬取一个任务）
- Redis 数据库
- Scrapy-Redis 框架
模拟登陆
- 登陆原理: Cookie 和 Session
- Selenium 浏览器自动化
- 爬取需要登陆才能获取的数据
验证码识别
- OpenCV 计算机视觉
- OCR 文字识别引擎
- EasyDL 机器学习云服务
反爬与反反爬
- 破解文字加密反爬
- 各类加密算法:MD5，SHA256，AES，RSAc
- JS逆向分析:还原网站的加密流程
拓展内容
- 数据分析: Pandas 模块
- 高频面试题目

爬虫合法么?

作为技术本身在法律中是不被禁止的
爬虫能获取的数据都是能通过浏览器正常获取的公开数据
爬虫只是更快速的获取大量数据

有法律风险的情况？

结合爬虫对网站服务器进行黑客攻击
通过获取的数据谋取经济利益
通过爬虫进行不当的商业竞争
爬取的数据侵犯了对方的版权或隐私权

如何规避法律风险？

切勿对网站服务器进行大规模的请求轰炸
切勿对爬取到的数据进行公开传播或售卖
切勿对涉及知识产权和用户隐私的数据进行爬取

上一篇：CentOS下ZLMediaKit的可视化管理网站MediaServerUI使用

下一篇：一百四十三、Linux——Linux的CentOS 7系统语言由中文改成英文

热门推荐

012026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03GitHub 镜像站点 04AI科技热点日报 | 2026年07月01日 052026 年 AI 大模型 & AI 编程工具实战全总结 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）092026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 10Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析