使用Python爬虫会遇到的问题和解决方法(包含案例)

一、HTTP错误(如403 Forbidden)

问题描述:

当使用requests库发起请求时,可能会遇到HTTP 403 Forbidden错误,这通常意味着服务器理解了请求,但是拒绝执行它。

解决方法:

1.设置headers,模拟浏览器请求。

2.使用代理IP。

3.增加cookies

4.降低请求频率,避免被服务器识别为爬虫。

案例:

python 复制代码
import requests
import time,random 

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

proxies={'https':'202.123.77.88:7777'}   
cookies=''
url = 'http://example.com' # 替换为实际的目标网站

try:
    response = requests.get(url, headers=headers,proxies=proxies,cookies=cookies)
    response.raise_for_status() # 如果响应状态码不是200,则抛出HTTPError异常
    print(response.text)
except requests.exceptions.HTTPError as errh:
    print("Http Error:", errh)
except requests.exceptions.ConnectionError as errc:
    print("Error Connecting:", errc)
except requests.exceptions.Timeout as errt:
    print("Timeout Error:", errt)
except requests.exceptions.RequestException as err:
    print("OOps: Something Else", err)

降低请求频率,是因为真实用户的访问并不会很频繁,因此我们使用随机时间来模拟核心代码如下:
for i in range(5):  
    response = requests.get("https://example.com";;,headers=headers,proxies=proxies) 
    time.sleep(random.uniform(1.5,3.4))  

二、反爬虫机制(如验证码、动态加载数据)

问题描述:

许多网站会采用反爬虫机制,如显示验证码、动态加载数据等,以防止爬虫爬取数据。

解决方法:

使用Selenium或Pyppeteer模拟浏览器操作,处理验证码。

对于动态加载的数据,可以使用Selenium等待数据加载完成后再进行抓取。

案例(Selenium处理动态加载数据):

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome() # 需要先安装ChromeDriver
driver.get('http://example.com') # 替换为实际的目标网站

# 等待某个元素加载完成
wait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.ID, "myDynamicElement")))

# 接下来可以获取该元素的数据或进行其他操作
print(element.text)

driver.quit() # 关闭浏览器

以上Selenium代码可以参考之前博文的案例
验证码的话,可以使用

简单图片验证码解决方法:
使用Pyppeteer截图:
await page.screenshot({'path': "test.png", "clip": {"x": 300, "y": 10, "width": 1320, "height": dimensions['height']}}) 
然后发给通义千问等一些识别图形的gpt

三、网络延迟或不稳定

问题描述:

由于网络原因,可能会导致爬虫在抓取数据时发生延迟或连接中断。

解决方法:

使用重试机制,当发生异常时自动重试。

增加超时时间,避免因为网络延迟导致请求超时。

案例(使用retrying库实现重试机制):

python 复制代码
import requests
from retrying import retry

@retry(stop_max_attempt_number=3, wait_fixed=1000) # 最多重试3次,每次间隔1秒
def fetch_data(url):
    response = requests.get(url)
    response.raise_for_status()
    return response.text

url = 'http://example.com' # 替换为实际的目标网站
data = fetch_data(url)
print(data)

以上就是使用Python爬虫时可能会遇到的问题和解决方法,希望对你有所帮助!

如果大家还有其他的爬虫伪装方式,欢迎在评论区留言交流!请勿用于非法用途!

相关推荐
Boilermaker19921 小时前
[Java 并发编程] Synchronized 锁升级
java·开发语言
沈浩(种子思维作者)1 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
MM_MS1 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
꧁Q༒ོγ꧂2 小时前
LaTeX 语法入门指南
开发语言·latex
njsgcs2 小时前
ue python二次开发启动教程+ 导入fbx到指定文件夹
开发语言·python·unreal engine·ue
alonewolf_992 小时前
JDK17新特性全面解析:从语法革新到模块化革命
java·开发语言·jvm·jdk
io_T_T2 小时前
迭代器 iteration、iter 与 多线程 concurrent 交叉实践(详细)
python
古城小栈2 小时前
Rust 迭代器产出的引用层数——分水岭
开发语言·rust
华研前沿标杆游学2 小时前
2026年走进洛阳格力工厂参观游学
python
sunfove2 小时前
光网络的立交桥:光开关 (Optical Switch) 原理与主流技术解析
网络