Python 学习笔记(十三)—— urllib获取网页

目录

一、介绍urllib库

二、urllib库的核心模块

[2.1 urllib.request](#2.1 urllib.request)

[2.2.1 urllib.request.urlopen()](#2.2.1 urllib.request.urlopen())

[2.1.2 urllib.request.Request()](#2.1.2 urllib.request.Request())

[2.1.3 urllib.request.urlencode()](#2.1.3 urllib.request.urlencode())

[2.2 urllib.parse](#2.2 urllib.parse)

[2.2.1 urllib.parse.urlparse()](#2.2.1 urllib.parse.urlparse())

[2.2.2 urllib.parse.urlunparse()](#2.2.2 urllib.parse.urlunparse())

[2.2.3 urllib.parse.urljoin()](#2.2.3 urllib.parse.urljoin())

[2.2.4 urllib.parse.urlencode()](#2.2.4 urllib.parse.urlencode())

[2.2.5 urllib.parse.parse_qs()](#2.2.5 urllib.parse.parse_qs())

[2.2.6 urllib.parse.quote()](#2.2.6 urllib.parse.quote())

[2.2.7 urllib.parse.unquote()](#2.2.7 urllib.parse.unquote())

[2.3 urllib.error](#2.3 urllib.error)

[2.4 urllib.robotparser](#2.4 urllib.robotparser)

[2.4.1 set_url()](#2.4.1 set_url())

[2.4.2 read()](#2.4.2 read())

[2.4.3 can_fetch()](#2.4.3 can_fetch())

三、unllib.post请求


一、介绍urllib库

urllib是Python标准库中用于处理URL(统一资源定位器)的模块之一。它提供了一组用于发送HTTP(超文本传输协议)请求的函数,以及用于处理URL编码和解码的工具函数。它可以实现以下功能:

  • 打开URL并读取响应内容
  • 发送POST、GET等HTTP请求
  • 设置请求头信息
  • 处理URL编码和解码
  • 处理Cookie
  • 处理代理服务器
  • 设置超时时间
  • 处理重定向
  • 处理HTTPS请求

二、urllib库的核心模块

urllib库包含4个模块,分别是:urllib.request、urllib.parse、urllib.error和urllib.robotparser。

2.1 urllib.request

**urllib.request**是 Python 内置的 HTTP 请求库,用于发送 HTTP 请求并获取服务器响应。它提供了一系列的函数和类,用于构建 HTTP 请求、处理响应和管理请求的上下文。

以下是 urllib.request中常用的一些函数和类:

  1. urlopen(url, data=None, [timeout, ]*):发送一个 HTTP GET 请求,并返回一个类似文件的对象来访问响应。可以接受一个字符串形式的 URL,也可以接受一个 Request 对象。
  2. Request(url, data=None, headers={}, method=None):用于构建 HTTP 请求的对象。可以指定请求的 URL、发送的数据、请求头和请求方法。
  3. urlencode(query, doseq=False, safe='', encoding=None, errors=None):将一个字典或包含键值对的序列转换为 URL 编码的查询字符串。
  4. urlretrieve(url, filename=None, reporthook=None, data=None):下载并保存一个远程文件到本地。
  5. URLopener:提供了更高级别的接口来发送 HTTP 请求。可以通过继承该类来添加更多自定义的行为。

使用 urllib.request 发送 HTTP 请求的一般流程如下:

  1. 构建 Request 对象,指定请求的 URL、发送的数据、请求头和请求方法(可选)。
  2. 调用 urlopen() 方法发送请求,获取服务器响应。
  3. 通过读取返回的响应对象来获取服务器响应的内容。

以下是一个简单的示例,演示如何使用 urllib.request 发送 HTTP 请求:

python 复制代码
import urllib.request

# 构建 Request 对象
req = urllib.request.Request('https://www.example.com/')

# 发送请求并获取响应
response = urllib.request.urlopen(req)

# 读取响应内容
content = response.read()

# 打印响应内容
print(content)
2.2.1 urllib.request.urlopen()

urllib.request.urlopen()函数是Python中用于打开URL的函数。它接受一个URL作为参数,并返回一个类似文件对象的response对象,可以通过该对象访问和处理URL返回的数据。

函数的基本语法如下:

python 复制代码
response = urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

参数说明:

  • url: 要打开的URL。
  • data: 要发送的数据。默认为None。
  • timeout: 请求超时时间。单位为秒。
  • cafile, capath, cadefault, context: 安全相关参数,用于HTTPS请求的SSL验证。

urlopen()函数会自动处理HTTP和HTTPS协议。返回的response对象有以下常用方法:

  • read(size=-1): 读取并返回response的内容。可选参数size指定读取的字节数,默认为-1,表示读取全部内容。
  • geturl(): 返回请求的URL。
  • info(): 返回response的headers信息。
  • getcode(): 返回response的HTTP状态码。
python 复制代码
import urllib.request

response = urllib.request.urlopen('http://www.example.com')
html = response.read().decode('utf-8')
print(html)
 
2.1.2 urllib.request.Request()

urllib.request.Request()是Python内置的一个类,用于构建HTTP请求。

参数如下:

  • url:请求的url地址。
  • data:要发送的数据,默认为None。
  • headers:请求头信息,默认为None。
  • method:请求方法,默认为GET。

该类的实例化对象作为urlopen()函数的参数,用于发送HTTP请求。下面是一个例子:

python 复制代码
import urllib.request

url = 'https://www.example.com'
req = urllib.request.Request(url)            # 创建一个Request对象
response = urllib.request.urlopen(req)
data = response.read()
print(data)

在这个例子中,我们首先创建了一个Request对象,并指定了请求的url地址。然后,使用urlopen()函数,将Request对象作为参数发送HTTP请求。最后,使用read()方法读取响应数据并打印出来。

2.1.3 urllib.request.urlencode()

**urllib.request.urlencode()**函数是一个URL编码方法,用于将一个字典(或类似于字典的对象)中的键值对转换为URL编码的字符串。

该函数的语法如下:

python 复制代码
urllib.request.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)

参数说明:

  • query:要转换为URL编码字符串的字典或类似字典的对象。
  • doseq:如果为True,则将多个同名的键值对作为单个键值对处理。默认为False
  • safe:指定需要编码的字符集合,其他字符将被编码。默认情况下,会对所有非字母数字字符进行编码。
  • encoding:指定编码格式,默认为utf-8
  • errors:指定编码错误处理方式,默认为replace
  • quote_via:指定用于引用字符的方法,默认为quote_plus,即将空格转换为+符号。

返回值为URL编码字符串。

示例代码:

python 复制代码
import urllib.request

params = {'name': 'John', 'age': 30}
encoded_params = urllib.request.urlencode(params)

#字典params中的键值对被转换为URL编码字符串name=John&age=30
print(encoded_params)  # 输出:name=John&age=30

2.2 urllib.parse

**urllib.parse**模块是Python标准库中的一个模块,用于解析URL(Uniform Resource Locator)。

URL是用于定位一个具体资源的字符串,它由多个部分组成,包括协议、域名、端口、路径、查询参数和片段等。urllib.parse模块提供了一些函数,用于对URL进行解析、拼接、编码和解码等操作。

urllib.parse 模块的主要函数包括:

  • urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
    • 解析URL,返回一个ParseResult对象,包含URL的各个组成部分。
  • urllib.parse.urlunparse(parts)
    • ParseResult对象或包含URL各部分的可迭代对象转换为URL字符串。
  • urllib.parse.urljoin(base, url, allow_fragments=True)
    • 将一个相对URL和一个基础URL拼接成一个完整的URL。
  • urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)
    • 将字典或元组列表等数据序列化为URL编码的查询字符串。
  • urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace', max_num_fields=None)
    • 解析URL编码的查询字符串,返回一个字典,键为参数名,值为参数值的列表。
  • urllib.parse.quote(string, safe='/', encoding=None, errors=None)
    • 对字符串进行URL编码。
  • urllib.parse.unquote(string, encoding='utf-8', errors='replace')
    • 对URL编码的字符串进行解码。

这些函数可以帮助我们处理URL相关的操作,如解析URL、构建URL、编码和解码URL等。

2.2.1 urllib.parse.urlparse()

urllib.parse.urlparse()函数是Python中的一个函数,用于解析URL字符串,并返回一个具有以下属性的命名元组:

  • scheme:URL的协议(例如http,https等)
  • netloc:网络位置部分(例如www.example.com
  • path:URL的路径部分
  • params:URL的参数部分
  • query:URL的查询字符串部分
  • fragment:URL的片段标识符部分

例子:

python 复制代码
from urllib.parse import urlparse

url = 'https://www.example.com/path/to/page?param1=value1¶m2=value2#fragment'
parsed_url = urlparse(url)

print(parsed_url.scheme)  # 输出:https
print(parsed_url.netloc)  # 输出:www.example.com
print(parsed_url.path)  # 输出:/path/to/page
print(parsed_url.params)  # 输出:
print(parsed_url.query)  # 输出:param1=value1¶m2=value2
print(parsed_url.fragment)  # 输出:fragment
2.2.2 urllib.parse.urlunparse()

urllib.parse.urlunparse()函数是Python中的一个urllib模块下的函数,用于将一个URL的各个组成部分拼接成一个完整的URL。

函数原型:

python 复制代码
urllib.parse.urlunparse(parts)

参数说明:

  • parts: 由6个元素构成的元组或列表,表示一个完整的URL的各个组成部分,分别是:scheme(协议)、netloc(网络位置)、path(路径)、params(参数)、query(查询字符串)、fragment(锚点)。

返回值: 返回一个完整的URL。

示例:

python 复制代码
from urllib.parse import urlunparse

url_parts = ('https', 'www.example.com', '/path', '', 'key=value', 'fragment')
url = urlunparse(url_parts)
print(url)

# https://www.example.com/path?key=value#fragment    输出结果
2.2.3 urllib.parse.urljoin()

urllib.parse.urljoin() 函数用于拼接URL地址。它将一个基础URL和一个相对URL作为参数,然后返回一个完整的URL。

函数原型:

python 复制代码
urllib.parse.urljoin(base_url, relative_url)

参数说明:

  • base_url:基础URL,拼接的起点。
  • relative_url:相对URL,要拼接到基础URL后面的部分。

urllib.parse.urljoin() 函数会自动处理各种情况,确保生成的URL是正确的。它会根据相对URL的情况来决定应该如何拼接。

  1. 如果相对URL以/开头,那么它会被拼接到基础URL的根路径下;
  2. 如果相对URL以//开头,那么它会被拼接到基础URL的scheme下;
  3. 如果相对URL以./或者../开头,那么它会被拼接到基础URL的路径下。

下面是一个示例:

python 复制代码
from urllib.parse import urljoin

base_url = 'https://www.example.com/'
relative_url = 'about'

full_url = urljoin(base_url, relative_url)
print(full_url)
# 输出结果        https://www.example.com/about

在这个例子中,urljoin()函数将基础URL https://www.example.com/ 和 相对URL about 拼接起来,生成了一个完整的URL https://www.example.com/about。

2.2.4 urllib.parse.urlencode()

urllib.parse.urlencode()函数是Python标准库中的一个函数,用于将字典或包含元组的可迭代对象转换为URL查询参数字符串。

函数原型:

python 复制代码
urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)

参数说明:

  • query:包含查询参数的字典或可迭代对象。
  • doseq:当为True时,如果查询参数的值为列表或元组,则会将它们作为多个值传递;当为False时,只会取列表或元组的第一个值作为查询参数的值。
  • safe:指定哪些字符不需要被转义,默认为'/'。
  • encoding:指定编码方式,默认为UTF-8。
  • errors:指定编码错误的处理方式,默认为'strict'。
  • quote_via:指定对查询参数进行编码的方式,默认为quote_plus()。

返回值: 返回URL查询参数字符串。

示例:将一个包含查询参数的字典转换为URL查询参数字符串

python 复制代码
import urllib.parse

params = {
    'name': 'Alice',
    'age': 20,
    'hobbies': ['hiking', 'reading'],
    'city': 'New York'
}

query_string = urllib.parse.urlencode(params)
print(query_string)
# 输出:name=Alice&age=20&hobbies=hiking&hobbies=reading&city=New+York

注意:

  • hobbies参数的值为一个列表,而在转换为查询参数字符串时,会将列表的每个元素作为一个单独的值。
2.2.5 urllib.parse.parse_qs()

urllib.parse.parse_qs()函数是Python的urllib库中的一个函数,用于解析URL查询字符串。它会将查询字符串解析为字典,其中查询参数的键是字典的键,查询参数的值是一个列表,列表中包含了查询参数的多个值。

函数原型:

python 复制代码
urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace')

参数说明:

  • qs:要解析的查询字符串。
  • keep_blank_values:指定是否保留空白值,默认为False,表示不保留。
  • strict_parsing:指定是否严格解析,默认为False,表示不严格。
  • encoding:指定解码查询字符串时使用的编码,默认为'utf-8'。
  • errors:指定解码查询字符串时遇到错误时的处理方式,默认为'replace',表示用替代字符替换错误字符。

返回值是一个字典,其中查询参数的键是字典的键,查询参数的值是一个列表,列表中包含了查询参数的多个值。

python 复制代码
from urllib.parse import parse_qs
qs = 'name=John&age=30&city=New+York&city=London'
result = parse_qs(qs)
print(result)
#输出结果: {'name': ['John'], 'age': ['30'], 'city': ['New York', 'London']}

这里的查询字符串qs,包含了三个查询参数:name、age和city。city是一个重复的查询参数,它出现了两次。parse_qs()函数会将查询字符串解析为一个字典,其中name和age的值分别是一个元素的列表,而city的值是一个包含两个元素的列表。

2.2.6 urllib.parse.quote()

urllib.parse.quote()函数是Python标准库中urllib.parse模块中的一个函数,用于将字符串进行URL编码。它会将字符串中的特殊字符转换为URL安全的形式,以便在URL中使用。

函数的语法如下:

python 复制代码
urllib.parse.quote(string, safe='/', encoding=None, errors=None)

参数说明:

  • string:要进行URL编码的字符串。
  • safe:指定保留不编码的字符,默认为'/'。
  • encoding:指定字符串的编码方式,默认为None,表示使用UTF-8编码。
  • errors:指定编码错误处理方式,默认为None,表示忽略错误。

示例:

python 复制代码
import urllib.parse

string = 'Hello World!'
encoded_string = urllib.parse.quote(string)
print(encoded_string)
#输出结果  Hello%20World%21

在上面的例子中,原始字符串"Hello World!"被编码为"Hello%20World%21",其中空格被转换为"%20",感叹号被转换为"%21"。

2.2.7 urllib.parse.unquote()

**urllib.parse.unquote()**是Python中urllib.parse模块提供的一个函数。它会接受一个URL编码的字符串作为输入,并返回解码后的字符串。它会将任何百分号编码的序列替换为其对应的字符。

参数说明:

  • string(必需):表示需要解码的URL编码的字符串。该参数是一个字符串类型。

  • encoding(可选):表示解码时要使用的编码方式。默认值为utf-8。该参数是一个字符串类型。

示例:

python 复制代码
from urllib.parse import unquote

encoded_string = "Hello%20World%21"
decoded_string = unquote(encoded_string, encoding='utf-8')

print(decoded_string)
# 输出结果    Hello World!

在这个示例中,使用urllib.parse.unquote()函数对URL编码的字符串"Hello%20World%21"进行解码。解码时使用utf-8编码方式。最终得到解码后的字符串"Hello World!"。

2.3 urllib.error

**urllib.error**模块是Python标准库中的一个模块,提供了处理URL打开和读取错误的异常类。

该模块定义了以下异常类:

  1. URLError :当URL产生错误时引发的异常。它是OSError的子类,包含了有关URL错误的更多详细信息。

  2. HTTPError :当HTTP URL产生错误时引发的异常。它是URLError的子类,更专注于HTTP相关的错误。

使用urllib.error模块,你可以捕获和处理URL操作中可能出现的错误,例如网络连接问题、服务器错误等。

以下是一个使用urllib.error模块的示例:

python 复制代码
from urllib.request import urlopen
from urllib.error import URLError, HTTPError

try:
    response = urlopen('http://www.example.com/invalid-url')
except HTTPError as e:
    print('HTTP Error:', e.code, e.reason)
except URLError as e:
    print('URL Error:', e.reason)
else:
    print('Success!')

在这个示例中,urlopen()函数尝试打开一个无效的URL。

  • 如果遇到HTTP错误,则捕获HTTPError异常并打印错误代码和原因。
  • 如果遇到URL错误,则捕获URLError异常并打印错误原因。
  • 如果没有发生错误,则打印"Success!"。

2.4 urllib.robotparser

**urllib.robotparser**模块是Python标准库中的一个模块,用于解析和分析robots.txt文件,该文件用于指示爬虫程序应该访问哪些页面。

使用urllib.robotparser模块,你可以检查指定URL的robots.txt文件,了解爬虫是否被允许访问该URL。

该模块提供了**RobotFileParser**类,它具有以下主要方法:

  • set_url(url):设置要解析的robots.txt文件的URL。

  • read():从指定URL中读取robots.txt文件,并进行解析。

  • parse(lines):解析给定的robots.txt文件内容。lines参数是一个包含文件内容的字符串列表。

  • can_fetch(useragent, url):判断指定的爬虫(useragent)是否被允许访问指定的URL。

下面是一个使用urllib.robotparser模块的示例:

python 复制代码
from urllib.robotparser import RobotFileParser

# 创建RobotFileParser对象
rp = RobotFileParser()

# 设置要解析的robots.txt文件的URL
rp.set_url('http://www.example.com/robots.txt')

# 读取并解析robots.txt文件
rp.read()

# 判断爬虫是否允许访问指定URL
allowed = rp.can_fetch('mybot', 'http://www.example.com/some-page.html')
if allowed:
    print('Access allowed')
else:
    print('Access denied')

在这个示例中,RobotFileParser对象被创建,并设置要解析robots.txt文件的URL。然后通过read()方法读取并解析robots.txt文件。最后,使用can_fetch()方法判断指定的爬虫是否被允许访问指定的URL,并打印相应的访问结果。

注意:

  • can_fetch()方法的第一个参数是表示爬虫的字符串,它必须与robots.txt文件中的User-agent字段匹配。
2.4.1 set_url()

**set_url(url)**是RobotFileParser类的一个方法,用于设置要解析的robots.txt文件的URL。

参数说明:

  • url:要解析的robots.txt文件的URL,必须是一个合法的URL字符串。

该方法可以在创建RobotFileParser对象后使用,并且在调用read()方法之前使用。

示例用法:

python 复制代码
from urllib.robotparser import RobotFileParser

# 创建RobotFileParser对象
rp = RobotFileParser()

# 设置要解析的robots.txt文件的URL
rp.set_url('http://www.example.com/robots.txt')

在这个示例中,首先创建了一个RobotFileParser对象,然后使用set_url()方法设置要解析的robots.txt文件的URL为'http://www.example.com/robots.txt'。接下来可以调用read()方法来读取和解析该文件。

2.4.2 read()

**read()**是RobotFileParser类的一个方法,用于读取并解析指定的robots.txt文件。该方法会根据之前通过set_url()方法设置的URL,从网页中获取robots.txt文件内容,并进行解析。

注意:

  • 在调用read()方法之前,必须先通过set_url()方法设置要解析的robots.txt文件的URL。

示例用法:

python 复制代码
from urllib.robotparser import RobotFileParser

# 创建RobotFileParser对象
rp = RobotFileParser()

# 设置要解析的robots.txt文件的URL
rp.set_url('http://www.example.com/robots.txt')

# 读取并解析robots.txt文件
rp.read()

在这个示例中,首先创建了一个RobotFileParser对象,然后使用set_url()方法设置要解析的robots.txt文件的URL为'http://www.example.com/robots.txt',最后调用read()方法来读取并解析该文件。

2.4.3 can_fetch()

urllib.robotparser.can_fetch() 方法是一个用来检查给定的User-Agent是否可以fetch(抓取)给定的URL的方法。它接收两个参数:User-Agent和URL。如果可以抓取该URL,它返回True;否则返回False。

方法原型:

python 复制代码
can_fetch(useragent, url)

参数说明:

  • useragent是一个字符串,表示User-Agent;
  • url是一个字符串,表示URL。

示例:

python 复制代码
from urllib.robotparser import RobotFileParser

# 创建一个RobotFileParser对象
rp = RobotFileParser()

# 设置robots.txt文件的URL
rp.set_url("http://www.example.com/robots.txt")

# 读取并解析robots.txt文件
rp.read()

# 检查User-Agent为"Mozilla/5.0"是否可以抓取"http://www.example.com/page.html"
can_fetch = rp.can_fetch("Mozilla/5.0", "http://www.example.com/page.html")

print(can_fetch)
# 输出结果   True

上述示例中,首先创建了一个RobotFileParser对象,并通过调用set_url()方法设置了要解析的robots.txt文件的URL。然后,调用read()方法读取并解析了robots.txt文件。最后,通过调用can_fetch()方法,检查User-Agent为"Mozilla/5.0"是否可以抓取"url",并将结果打印出来。在这个示例中,由于robots.txt文件中允许"Mozilla/5.0"抓取"http://www.example.com/page.html",所以输出结果为True。

三、unllib.post请求

POST请求是一种HTTP请求方法,用于向服务器提交数据。以下是一个示例的Python代码,演示如何发送一个POST请求:

python 复制代码
import urllib.request
import urllib.parse

# 请求的URL
url = 'http://example.com/post'

# 要提交的数据
data = {'name': 'John', 'age': 30}

# 将数据编码为URL格式
data_encoded = urllib.parse.urlencode(data).encode('utf-8')

# 创建Request对象
req = urllib.request.Request(url, data_encoded)

# 发送POST请求并获取响应
response = urllib.request.urlopen(req)

# 读取响应内容
result = response.read()

# 打印响应内容
print(result)

在示例中,使用urllib库的request模块发送了一个POST请求。首先,我们指定了要请求的URL。然后,我们准备了要提交的数据,并使用urllib库的parse模块将数据编码为URL格式。接下来,我们创建了一个Request对象,将URL和编码后的数据作为参数传入。最后,我们使用urllib库的urlopen函数发送POST请求并获取响应。最后,我们将响应内容打印出来。

相关推荐
虾球xz2 分钟前
游戏引擎学习第55天
学习·游戏引擎
Kai HVZ6 分钟前
python爬虫----爬取视频实战
爬虫·python·音视频
古希腊掌管学习的神9 分钟前
[LeetCode-Python版]相向双指针——611. 有效三角形的个数
开发语言·python·leetcode
m0_7482448312 分钟前
StarRocks 排查单副本表
大数据·数据库·python
oneouto18 分钟前
selenium学习笔记(二)
笔记·学习·selenium
B站计算机毕业设计超人18 分钟前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
路人甲ing..21 分钟前
jupyter切换内核方法配置问题总结
chrome·python·jupyter
sealaugh3223 分钟前
aws(学习笔记第十九课) 使用ECS和Fargate进行容器开发
笔记·学习·aws
游客52032 分钟前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉
炭烤玛卡巴卡1 小时前
学习postman工具使用
学习·测试工具·postman