爬虫基础(六)代理简述

目录

一、什么是代理

二、基本原理

三、代理分类


一、什么是代理

爬虫一般是自动化的,当我们自动运行时

爬虫自动抓取数据,但一会就出现了错误:

如,您的访问频率过高

这是因为网站的反爬措施,如果频繁访问,则会被禁止,即封IP

为解决这种情况,我们需要把自己的IP伪装一下,即代理

所谓代理,就是代理服务器。

二、基本原理

正常来说:

客户发送请求给服务器

然后服务器将响应传给客户

而代理的话:

++相当于在客户和服务器之间加一个代理服务器++

就成了客户发送请求给代理服务器

代理服务器将请求传给服务器

服务器将响应传给代理服务器

代理服务器再传给客户

而使用代理服务器,则可以隐藏真实IP

我们只需要不断更换IP即可

三、代理分类

根据协议分类

  1. HTTP代理

    • 仅支持HTTP协议,适用于网页浏览。

    • 通常用于访问受限网站或匿名浏览。

  2. HTTPS代理

    • 支持HTTPS协议,提供加密传输,安全性更高。

    • 适用于需要加密的网页访问。

  3. SOCKS代理

    • 支持多种协议(如HTTP、FTP),灵活性高。

    • 常用于P2P文件共享或绕过防火墙。

  4. FTP代理

    • 专用于FTP协议,用于文件传输。

    • 适用于需要匿名上传或下载文件的场景。

  5. SSL/TLS代理

    • 支持SSL/TLS加密,安全性强。

    • 适用于需要高安全性的数据传输。

根据匿名程度分类

  1. 透明代理(Transparent Proxy)

    • 不隐藏用户IP,服务器知道请求经过代理。

    • 常用于内容过滤或缓存。

  2. 普通匿名代理(Anonymous Proxy)

    • 隐藏用户IP,但服务器知道请求来自代理。

    • 提供一定匿名性,但无法完全隐藏代理身份。

  3. 高匿名代理(Elite Proxy)

    • 完全隐藏用户IP和代理信息,服务器无法识别请求是否通过代理。

    • 提供最高匿名性,适用于高隐私需求。

相关推荐
深蓝电商API13 分钟前
爬虫+大模型结合:让AI自动写XPath和清洗规则
人工智能·爬虫
寒山李白15 分钟前
关于Python版本与supervisor版本的兼容性
windows·python·supervisord
梨落秋霜31 分钟前
Python入门篇【基础语法】
开发语言·python
ada7_1 小时前
LeetCode(python)——543.二叉树的直径
数据结构·python·算法·leetcode·职场和发展
小白学大数据1 小时前
Python 多线程爬取社交媒体品牌反馈数据
开发语言·python·媒体
HAPPY酷1 小时前
压缩文件格式实战速查表 (纯文本版)
python
云计算练习生1 小时前
渗透测试行业术语扫盲(第一篇)—— 基础网络与协议类术语
网络·网络协议·安全·网络安全·渗透测试·渗透测试术语
祝余Eleanor2 小时前
Day 31 类的定义和方法
开发语言·人工智能·python·机器学习
背心2块钱包邮2 小时前
第6节——微积分基本定理(Fundamental Theorem of Calculus,FTC)
人工智能·python·机器学习·matplotlib
larance2 小时前
修改jupyterlab 默认路径
python