python爬虫基础

尘佑不尘2024-11-04 21:36

写爬虫的步骤

浏览器打开要抓取的网站

推荐Chrome浏览器
F12调出Chrome的开发者工具(DevTools)
查看源代码，是否包含想要的数据
包含，则通过requests库抓取网页，提取数据
不包含，则看下一步
检查ajax请求
寻找需要的数据

写爬虫的基本操作

1.抓取-->存储html(压缩)，未来可能更改需求，所以可以压缩存储，节约时间

网页
ajax
2.提取
3.存储

HTTP请求库

复制代码

urllib.request # 官方库，但是没有requests好用

requests
 r.text:str,chardet,headers->encoding
 r.content:bytes cchardet.detect(r.content)
 r.json

aiohttp # 异步io

cchardet编码 # 使用c++编写速度比使用python编写的chardet要快，并且对于中文识别更准确

重量级工具，会启动一个完整的浏览器加载数据，如果是一个复杂网页，比如有很多ajax请求，使用他就会很方便
selenium自动化测试工具
 webdriver.Chrome()
 chrome headless

提取数据的库

复制代码

re正则表达式

在解析HTML代码的时候，如果HTML代码不规范或者不完整，lxml解析器会自动修复或补全代码
lxml使用c语言实现比Beautiful Soup要快
lxml (Beautiful Soup)
  xpath()

爬虫进阶

用Chromel断点调试JavaScript
用Charles、Fiddle抓包分析

如何发现ajax加载URL

Chrome浏览器F12调出开发者工具

Network
- Type:xhr
- Filter:XHR(Doc)
  返回结果
json,xml,html
例子
https://translate.google.cn/
https://fanyi.baidu.com/

瀑布流网页的抓取

表现是瀑布流，实现是ajax

网页滚动到底部，ajax加载下一页
JavaScript渲染ajax获取的数据为网页
例子
https://unsplash.com/

js解密

打开网页加载的js，因为js是脚本语言，不能编译所以源码都能看到，常见的加密

压缩、打包、混淆
晦涩难懂，pretty格式但变量、函数名难懂
找到js加密/解密算法的代码
Charles抓包分析
- 例：https:/www.yuanrenxue.com/crawler/get-login-cookies-charles-weibo.html
Chrome调试avaScript
- 例子：translate.google.cn

对付JavaScript的万能钥匙

Python Selenium模块

Chrome有界面
Chrome Headless

Chrome的运行效率
没有requests等库快，但开发速度快
- 不用费劲理解javaScript代码
- 不用使用Python重写javaScript
针对单一复杂网站，建议Chrome
- 很难绕开该网站的IP、账号限流
对于多个普通网站，使用requests
- 这些网站几乎没有限制。

异步并发爬虫

分布式爬虫

代码

https://github.com/veelion/python-crawler

上一篇：Linux 上安装 conda 步骤实现

下一篇：java8 list map 聚合求和

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04《大数据技术原理与应用》实验报告三熟悉HBase常用操作 05Linux下V2Ray安装配置指南 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08GitLab 零基础入门指南：从安装到项目管理全流程 09jdk21下载、安装（Windows、Linux、macOS）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）