1. urlretrieve
Urllib 库也是类似 request 库,用来解析html的
首先讲 urlretrieve 子模块
这个模块的作用是将网页下载到本地
语法: urlretrieve(网址,本地地址)
例如:
这样就可以了,他会将百度网页下载到本地D盘下,
不过图片那些可能下载不到,因为他做了防盗取
import urllib.request
url = 'https://www.baidu.com/'
urllib.request.urlretrieve(url,'D:/')
2. urlcleanup
urlcleanup 用来清除爬虫产生的一些缓存及其他一些杂七杂八的东西
他通常在请求网页的时候使用,
运行时不会有任何提示
例:
import urllib.request
url = 'https://www.baidu.com/'
urllib.request.urlretrieve(url,'D:/')
urllib.request.urlcleanup()
3. info()
info() 用来获取网页的简介信息
例:
import urllib.request
url = 'https://www.baidu.com/'
data = urllib.request.urlopen(url)
urllib.request.urlcleanup()
print(data.info())
效果图:
4. getcode()
getcode() 获取状态码
import urllib.request
url = 'https://www.baidu.com/'
data = urllib.request.urlopen(url)
urllib.request.urlcleanup()
print(data.getcode())
>>> 输出 200
5. geturl()
geturl() 获取当前访问网页的url地址
例:
import urllib.request
url = 'https://www.baidu.com/'
data = urllib.request.urlopen(url)
urllib.request.urlcleanup()
print(data.geturl())
>>> 输出 https://www.baidu.com/
6. 超时设置
在我们访问网页的时候,可能会因为各种原因导致访问不成功,
这个原因可能是对方服务器反应慢,或者网速慢之类的问题,
那么我们就需要给代码更多的判断时间,
如果超过这个时间,那么我们就可以认为网页无法访问。
这里我们使用到 timeout() 函数来设置请求时间
它通常会配合 try except 函数一起使用
例:
设置超时时间为 5秒,
len() 函数为获取返回长度,
decode() 是解码的意思,有些时候因为编码不同,不解码的话会出错,
第二个参数 ignore
,表示解码失败也强行解码
import urllib.request
try:
url = 'https://www.baidu.com/'
data = urllib.request.urlopen(url,timeout=5)
urllib.request.urlcleanup() # 清除缓存
print(len(data.read().decode("utf-8","ignore")))
except Exception as error:
print("无法访问 " + str(error))
>>> 输出 227
Urllib基础,有些时候没有 request模块方便