Python爬虫--Urllib基础

1. urlretrieve

Urllib 库也是类似 request 库,用来解析html的

首先讲 urlretrieve 子模块

这个模块的作用是将网页下载到本地

语法: urlretrieve(网址,本地地址)

例如:

这样就可以了,他会将百度网页下载到本地D盘下,

不过图片那些可能下载不到,因为他做了防盗取

复制代码
import urllib.request

url = 'https://www.baidu.com/'

urllib.request.urlretrieve(url,'D:/')

2. urlcleanup

urlcleanup 用来清除爬虫产生的一些缓存及其他一些杂七杂八的东西

他通常在请求网页的时候使用,

运行时不会有任何提示

例:

复制代码
import urllib.request

url = 'https://www.baidu.com/'

urllib.request.urlretrieve(url,'D:/')

urllib.request.urlcleanup()

3. info()

info() 用来获取网页的简介信息

例:

复制代码
import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.info())

效果图:


4. getcode()

getcode() 获取状态码

复制代码
import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.getcode())

>>> 输出 200

5. geturl()

geturl() 获取当前访问网页的url地址

例:

复制代码
import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.geturl())

>>> 输出 https://www.baidu.com/

6. 超时设置

在我们访问网页的时候,可能会因为各种原因导致访问不成功,

这个原因可能是对方服务器反应慢,或者网速慢之类的问题,

那么我们就需要给代码更多的判断时间,

如果超过这个时间,那么我们就可以认为网页无法访问。

这里我们使用到 timeout() 函数来设置请求时间

它通常会配合 try except 函数一起使用

例:

设置超时时间为 5秒

len() 函数为获取返回长度,

decode() 是解码的意思,有些时候因为编码不同,不解码的话会出错,

第二个参数 ignore ,表示解码失败也强行解码

复制代码
import urllib.request

try:

	url = 'https://www.baidu.com/'

	data = urllib.request.urlopen(url,timeout=5)

	urllib.request.urlcleanup() # 清除缓存

	print(len(data.read().decode("utf-8","ignore")))

except Exception as error:
	print("无法访问 " + str(error))

>>> 输出 227

Urllib基础,有些时候没有 request模块方便

相关推荐
wuxuanok13 分钟前
Web后端开发-Mybatis
java·开发语言·笔记·学习·mybatis
带刺的坐椅32 分钟前
Java MCP 实战:构建跨进程与远程的工具服务
java·ai·solon·mcp
陈敬雷-充电了么-CEO兼CTO36 分钟前
复杂任务攻坚:多模态大模型推理技术从 CoT 数据到 RL 优化的突破之路
人工智能·python·神经网络·自然语言处理·chatgpt·aigc·智能体
yt948321 小时前
C#实现CAN通讯接口
java·linux·前端
卷到起飞的数分1 小时前
Java零基础笔记07(Java编程核心:面向对象编程 {类,static关键字})
java·开发语言·笔记
舌尖上的五香1 小时前
ThreadLocal、InheritableThreadLocal、TransmittableThreadLocal
java
okok__TXF1 小时前
Sentinel入门篇【流量治理】
java·sentinel
YOLO大师1 小时前
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言)
c++·python·华为od·华为od机试·华为od2025b卷·华为机试2025b卷·华为od机试2025b卷
谁他个天昏地暗1 小时前
Java 实现 Excel 文件对比与数据填充
java·开发语言·excel
xiao5kou4chang6kai41 小时前
【Python-GEE】如何利用Landsat时间序列影像通过调和回归方法提取农作物特征并进行分类
python·gee·森林监测·洪涝灾害·干旱评估·植被变化