Python爬虫入门03:用Urllib假装我们是浏览器

文章目录

引言

在网络的世界里,浏览器是我们与互联网沟通的桥梁。当我们在浏览器地址栏输入一个网址或点击一个链接时,浏览器就会向服务器发起一个HTTP请求。服务器接收到请求后,会处理并返回相应的数据,这通常是一个HTML页面、一张图片或一段视频。这些数据随后会被浏览器解析并展示给我们。

然而,在自动化测试或数据抓取的场景中,我们可能需要用程序模拟浏览器的行为,这就是Python的Urllib库大显身手的地方。Urllib是一个强大的内置库,它允许我们用代码来发送请求、接收响应,就像浏览器一样。

Urllib库简介

Python的Urllib库是一个用于处理URL的库,它提供了一系列丰富的功能来帮助我们与互联网进行交互。Urllib库主要由以下四个模块组成:

  • request:用于发起网络请求。
  • error:包含定义和处理请求错误的异常类。
  • parse:用于解析URL以及URL的各个组成部分。
  • robotparser:用于解析网站的robots.txt文件,以确定哪些页面可以被爬虫访问。
Request模块详解

Request模块是Urllib中使用最频繁的模块之一。它允许我们构造请求并发送到服务器。以下是一些常用方法和语法:

  • urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None):发送GET或POST请求。
    • url:请求的URL地址。
    • data:发送的数据,通常用于POST请求。
    • timeout:请求的超时时间。

代码示例:

python 复制代码
import urllib.request

# 发起GET请求
response = urllib.request.urlopen('http://www.example.com')
print(response.read().decode('utf-8'))

# 发起POST请求
data = bytes(urllib.parse.urlencode({'key': 'value'}).encode('utf-8'))
response = urllib.request.urlopen('http://www.example.com', data)
print(response.read().decode('utf-8'))
Error模块与异常处理

Error模块提供了一些异常类,用于处理网络请求过程中可能遇到的错误。常见的异常有:

  • urllib.error.URLError:所有URL错误的基类。
  • urllib.error.HTTPError:HTTP错误,包含状态码和错误信息。

异常处理示例:

python 复制代码
try:
    response = urllib.request.urlopen('http://www.example.com')
except urllib.error.URLError as e:
    print('Failed to reach a server:', e.reason)
Parse模块与URL解析

Parse模块提供了一些函数来解析URL和构造URL。常用函数包括:

  • urllib.parse.urlparse(url):将URL分解为6个组件:scheme, netloc, path, params, query, fragment。
  • urllib.parse.urlencode(query, doseq=False, encoding='utf-8'):将字典或列表字典编码成x-www-form-urlencoded格式的数据。

URL解析示例:

python 复制代码
from urllib.parse import urlparse, urlencode

url = 'http://www.example.com/path?arg=value#anchor'
parsed_url = urlparse(url)
print(parsed_url.scheme, parsed_url.netloc, parsed_url.path)

data = {'key1': 'value1', 'key2': 'value2'}
encoded_data = urlencode(data)
print(encoded_data)
Robotparser模块

Robotparser模块用于解析网站的robots.txt文件,这个文件用来告诉爬虫哪些页面可以访问,哪些不可以。Robotparser模块的常用方法包括:

  • urllib.robotparser.RobotFileParser().set_url(url):设置robots.txt文件的URL。
  • urllib.robotparser.RobotFileParser().can_fetch(user_agent, url):判断指定的爬虫是否可以访问某个URL。

Robotparser使用示例:

python 复制代码
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('http://www.example.com/robots.txt')
if rp.can_fetch('*', 'http://www.example.com/somepage'):
    print('This page can be fetched.')
else:
    print('This page cannot be fetched.')

通过这些模块和方法,我们可以使用Python的Urllib库来构建复杂的网络请求,模拟浏览器行为,进行自动化测试或数据抓取。

模拟浏览器请求

在网络请求中,服务器可以通过请求头(Headers)来获取发起请求的客户端信息,例如使用的浏览器类型、操作系统、语言偏好等。通过模拟这些请求头信息,我们可以欺骗服务器,让它认为请求来自于一个真实的浏览器或移动设备,这对于某些需要特定用户代理(User-Agent)才能访问的网站尤其有用。

使用Request方法添加请求头信息

urllib.request.Request 方法允许我们自定义请求的各个方面,包括URL、请求方法、数据以及请求头。以下是构造请求头信息的基本步骤:

  1. 构造请求头字典 :定义一个字典,包含所有需要的请求头信息,如User-AgentAccept-LanguageReferer等。

  2. 创建Request对象 :使用urllib.request.Request构造函数创建一个请求对象,传入URL、数据(如果有)、请求头以及请求方法。

  3. 发送请求 :使用urllib.request.urlopen方法发送请求,并获取响应。

代码示例

以下是一个构造请求头信息并发起自定义GET请求的示例:

python 复制代码
import urllib.request
import urllib.parse

# 构造请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.5',
    'Referer': 'http://www.example.com/'
}

# 创建请求对象
url = 'http://www.example.com/somepage'
request = urllib.request.Request(url, headers=headers)

# 发送请求并获取响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

对于POST请求,除了设置请求头,我们还需要传递数据:

python 复制代码
# 构造POST请求的数据
data = {'key1': 'value1', 'key2': 'value2'}.items()
data = urllib.parse.urlencode(data).encode('utf-8')

# 创建请求对象,指定POST方法
request = urllib.request.Request(url, data=data, headers=headers, method='POST')

# 发送请求并获取响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

通过这种方式,我们可以模拟浏览器或手机的请求,绕过一些简单的客户端验证,获取服务器的响应数据。然而,需要注意的是,某些网站可能使用更复杂的机制来验证请求的合法性,仅仅修改请求头可能不足以成功模拟请求。

  1. 实战演练:模拟登录操作
    • 选择一个具体网站(如百度)作为示例。

    • 抓取登录页面的请求参数和请求头信息。

    • 这里的具体方法就是打开fiddler,然后打开百度的网页,选择登录,提交表单后抓取到这个表单信息,如下

    • 接着是我们的请求头信息:

    • 编写代码模拟登录过程:

      根据您的要求,下面是按照指定顺序组织的代码示例:

1. 设置请求URL和请求头
python 复制代码
import urllib.parse
import urllib.request
import ssl
import json

# 创建SSL上下文
context = ssl.create_default_context()

# 设置请求URL(请替换为实际的登录API URL)
url = "https://www.baidu.com/some_actual_login_api"

# 设置请求头,模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}
2. 定义请求参数并转换为适当的格式
python 复制代码
# 定义请求参数字典
params = {
    "username": "your_username",  # 替换为您的用户名
    "password": "your_password",  # 替换为您的密码
    # 其他参数根据API要求添加
}

# 对参数字典进行URL编码
encoded_params = urllib.parse.urlencode(params).encode('utf-8')
3. 使用Request方法封装请求
python 复制代码
# 使用Request方法封装请求
request = urllib.request.Request(
    url,
    data=encoded_params,  # 发送编码后的参数
    headers=headers,      # 设置请求头
    method='POST'         # 指定请求方法为POST
)
4. 发送请求并获取响应
python 复制代码
try:
    # 发送请求并获取响应
    with urllib.request.urlopen(request, context=context) as response:
        response_data = response.read().decode('utf-8')
        print("Response from server:", response_data)
except urllib.error.HTTPError as e:
    print(f"HTTPError: {e.code} - {e.msg}")
except urllib.error.URLError as e:
    print(f"URLError: {e.reason}")
except Exception as e:
    print(f"An unexpected error occurred: {e}")
常用使用方法总结
  1. 使用urlopen方法:进行基本的GET请求,获取网页内容。
  2. 自定义请求头 :通过构造Request对象,模拟浏览器或移动设备的请求头,以绕过一些简单的客户端验证。
  3. 异常处理 :使用error模块中的异常类来处理请求过程中可能出现的错误。
  4. URL解析 :利用parse模块解析和构造URL,处理查询字符串。
  5. 遵守Robot协议 :使用robotparser模块来检查爬虫是否被允许访问特定的页面。
模拟请求的重要性和实用性

使用Urllib进行模拟请求在多个领域都有其重要性和实用性:

  1. 自动化测试:自动化测试脚本可以模拟用户行为,测试网站的功能和性能。
  2. 数据抓取:爬虫程序可以通过模拟浏览器请求来获取网页数据,进行信息收集和分析。
  3. API交互:与Web API进行交互时,Urllib可以用来发送请求并接收响应。
  4. 跨平台兼容性:由于Urllib是Python的内置库,它在不同的操作系统上都能保持一致的行为,这使得编写跨平台的网络应用程序变得更加容易。
结语

虽然Urllib提供了丰富的功能来处理网络请求,但在实际应用中,我们还需要考虑到请求的效率、网站的反爬虫策略以及数据的合法使用等问题。合理利用Urllib库,不仅可以提高开发效率,还可以帮助我们更好地理解和使用网络资源。随着技术的不断进步,我们也应该持续学习新的库和框架,以适应不断变化的网络环境。

相关推荐
时光の尘20 分钟前
C语言菜鸟入门·关键字·int的用法
c语言·开发语言·数据结构·c++·单片机·链表·c
程序员黄同学22 分钟前
Python 中如何创建多行字符串?
前端·python
坊钰23 分钟前
【Java 数据结构】时间和空间复杂度
java·开发语言·数据结构·学习·算法
Edward-tan25 分钟前
c语言数据结构与算法--简单实现线性表(顺序表+链表)的插入与删除
c语言·开发语言·链表
武昌库里写JAVA30 分钟前
一文读懂Redis6的--bigkeys选项源码以及redis-bigkey-online项目介绍
c语言·开发语言·数据结构·算法·二维数组
苹果酱056733 分钟前
windows安装redis, 修改自启动的redis服务的密码
java·开发语言·spring boot·mysql·中间件
一点一木1 小时前
AI与数据集:从零基础到全面应用的深度解析(超详细教程)
人工智能·python·tensorflow
A.sir啊1 小时前
Python知识点精汇:集合篇精解!
python·pycharm
周某人姓周1 小时前
利用爬虫爬取网页小说
爬虫·python
花生糖@1 小时前
OpenCV图像基础处理:通道分离与灰度转换
人工智能·python·opencv·计算机视觉