《代理选择与反爬虫策略探究：如何优化网络爬虫效率与稳定性》

代理IP如何选以及常见反爬策略

因为有的网站会封IP，用户如果没有登录，那IP就是身份标识，如果网站发现用户行为异常就非常可能封IP

就是让一个人帮你转交请求，帮你转交的人对面不熟，也就难以发现频繁请求的是你

但是要注意我们只能使用高匿代理，透明代理（转交请求同时告诉是帮谁转交的）什么的是不能用的

速度：加代理之后3秒钟能相应是优秀，5秒钟之内能相应是能用的

安全：用来路不明的代理有信息安全风险

价格：性价比需要考虑

请求间隔：有的接口有请求间隔限制，尤其是按时收费的这种，也要考虑

稳定性：失效时间人为设置有长时间的和短时间的，短的1到3分钟，长的几天的都有，越长的越贵，我们用短的就行

比较常用的有芝麻代理，小象代理，快代理，站大爷等等

封禁IP类
- 阈值：
  - 打比方，一分钟60次，第一次封禁2分钟，然后策略改为一分钟45次
  - 打比方，一分钟60次，第二天访问同样的内容，则策略改为一分钟45次（增量爬虫，需每天爬取进行数据更新）
  总结：所以有的代理IP可以复活，代理IP池很有必要（后续会发布）
蜜罐陷阱：网页有正常用户不可访问的链接，爬虫获取并访问此链接将进入无限循环，直到程序崩溃
token加密验签
检测环境变量：selenium可以检测环境变量，requests访问同样也可以检测环境变量