Python爬虫反爬策略，User-Agent与代理IP

Python反爬策略：User-Agent与代理IP实战指南

引言

在互联网数据采集领域，爬虫与反爬的博弈从未停止。作为一名爬虫开发者，掌握有效的反爬策略是获取目标数据的必修课。本文将重点介绍两种最基础却极为重要的反爬手段：User-Agent伪装与代理IP的使用。

User-Agent伪装艺术

为何需要伪装User-Agent

User-Agent是最容易被检测的爬虫特征之一。默认情况下，Python的Requests库会使用类似以下UA：

```

python-requests/2.28.1

```

这样的UA无异于告诉网站："我是爬虫!来封我!"。据统计，约68%的网站会优先检测User-Agent进行反爬。

实际操作方法

单一UA伪装

```python

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

}

response = requests.get(url, headers=headers)

```

多UA随机切换

```python

from random import choice

user_agents = [

'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...',

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...',

'Mozilla/5.0 (iPhone; CPU iPhone OS 16_5 like Mac OS X)...'

]

headers = {'User-Agent': choice(user_agents)}

```

建议维护至少10-20个主流UA，并定期更新版本号。

代理IP技术详解

代理IP的必要性

当网站发现单个IP地址在短时间内发起大量请求时，最常见的反制措施就是IP封禁。根据实测数据：

普通网站：每分钟超过30次请求可能触发封禁
严格防护的网站：每分钟5次就可能导致封禁

代理IP实战方案

免费代理使用

```python

proxies = {

'http': 'http://123.123.123.123:8080',

'https': 'http://123.123.123.123:8080'

}

try:

response = requests.get(url, proxies=proxies, timeout=5)

except:

print("代理失败，切换下一个")

```

需要注意的是：

免费代理存活率通常低于30%
每次请求前应测试代理可用性
建议从多个来源收集备用代理

付费代理服务

对于商业项目，推荐使用付费代理服务：

```python

以某云代理为例

proxies = {

'http': 'http://username:password@proxy.server.com:port',

'https': 'http://username:password@proxy.server.com:port'

}

```

专业代理服务的优势：

高达99%的可用率
支持高并发
提供API自动管理IP池

IP池的维护策略

建立IP可用性检测机制
实现IP自动切换逻辑
记录每个IP的使用频率
设置IP冷却时间(建议30分钟以上)

进阶组合策略

将User-Agent与代理IP结合使用：

```python

def get_with_retry(url, retry=3):

for _ in range(retry):

try:

headers = {'User-Agent': get_random_ua()}

proxies = get_random_proxy()

return requests.get(url, headers=headers,

proxies=proxies, timeout=10)

except:

continue

return None

```

注意事项

设置合理的请求间隔(建议0.5-3秒)
处理各种HTTP状态码(403/429等)
监控请求成功率，及时调整策略
尊重网站的robots.txt协议

掌握这些基础反爬策略后，已经能够应对大部分普通网站的反爬机制。但面对更复杂的防护系统时，还需要学习Cookie处理、验证码破解等更高级的技术，这将在后续文章中详细介绍。