爬虫基础学习-链接协议分析,熟悉相关函数

1、urlparse:(python标准库中的一个模块,解析和操作url)

标准的url链接格式:scheme://netloc/path;params?query#fragment

scheme(协议) http or https

netloc(网络位置) host

path(路径)

params(携带的参数)

query(查询参数)

fragment(片段) 内部导航

2、urlunparse(组合)

http://www.baidu.com/index.html;user?id=0#comment

3、urlsplit(和urlparse不同的是 它不解析查询参数和片段部分,只分割url返回的是一个元组类型,可以用索引来取)

4、urlunsplit

5、urljoin 将一个相对URL 解析成一个绝对的url,base参数: 基本url,通常是一个绝对的url;url参数:这个是相对的url

结论:base_url 提供了三项内容 scheme、netloc 和 path。如果这 3 项在新的链接里不存在,就予以补充;如果新的链接存在,就使用新的链接的部分。而 base_url 中的 params、query 和 fragment 是不起作用的。

6、parse_qs(get参数的序列化)

7、parse_qsl(将参数转为元组组成列表)

8、quote(url编码)

9、unquote(url解码)

python 复制代码
#!/usr/bin/env python3

from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, parse_qs, parse_qsl, quote, unquote

url = 'http://www.baidu.com/index.html;user?id=0#comment'


# 1、############urlparse

# 输出URL网址的标准组成:scheme://netloc/path;params?query#fragment
response = urlparse(url=url)
print(response)
print(response.scheme)
print(response.netloc)
print(response.path)
print(response.params)
print(response.query)
print(response.fragment)

result = urlparse(url=url, scheme='https', allow_fragments=False)
print(result.scheme)
print(result.fragment)

# 2、############urlunparse

data = ['http', 'www.baidu.com', 'index.html', 'user', 'id=0', 'comment']
result = urlunparse(data)
print(result)

# 3、############urlsplit

response = urlsplit(url)
print(result)
print(response.scheme)
print(response[1])
print(response.netloc)
print(response.path)
print(response.query)
print(response.fragment)

# 4、############urlunsplit

data = ('http', 'www.baidu.com', 'index.html', 'id=0', 'comment')
result = urlunsplit(data)
print(result)

# 5、############urljoin

base_url = 'https://www.baidu.com'
relative = '/path/to/xxx'
result = urljoin(base_url, relative)
print(result)
print(urljoin('https://www.baidu.com', '/FAQ.html'))
print(urljoin('https://www.baidu.com', 'http://mashibing.com/FAQ.html'))
print(urljoin('https://www.baidu.com/admin.html', 'http://mashibing.com/FAQ.html'))
print(urljoin('https://www.baidu.com?wd=aaa', '?user=1#comment'))
print(urljoin('https://www.baidu.com#comment', '?user=1'))

# 6、############parse_qs

query = 'name=handsomewangbo&age=18'
result = parse_qs(query)
print(result)

# 7、############parse_qsl

query = 'name=handsome_wangbo&age=18'
result = parse_qsl(query)
print(result)

# 8、############quote

key = "帅哥"
result = url + quote(key)
print(result)

# 9、############unquote

print(unquote(result))
相关推荐
小风吹啊吹~11 分钟前
通过时态图学习意图驱动识别足球控球比赛阶段 论文详解
学习·transformer·论文笔记·gan·足球战术·战术分析系统
深蓝电商API29 分钟前
移动端浏览器自动化:Playwright for Android 实战
爬虫·playwright
阿i索30 分钟前
【C++学习笔记】【基础】4.string类(2)——模拟实现
c++·笔记·学习
袁小皮皮不皮1 小时前
6.HCIP OSPF域间防环机制与虚链路
服务器·网络·笔记·网络协议·学习·智能路由器
一口吃俩胖子1 小时前
【脉宽调制DCDC功率变换学习笔记026】补偿设计和闭环性能
笔记·学习
三品吉他手会点灯1 小时前
C语言学习笔记 - 48.流程控制2 - 什么是流程控制
c语言·开发语言·笔记·学习
如烟花的信页1 小时前
外贸*登录逆向分析
javascript·爬虫·python·js逆向
لا معنى له2 小时前
SF2Net: Sequence Feature Fusion Network for Palmprint Verification
人工智能·笔记·学习·机器学习
吃着火锅x唱着歌2 小时前
深度探索C++对象模型 学习笔记 第六章 执行期语意学(1)
c++·笔记·学习
xxwl5852 小时前
工作室小测的部分记录
c++·学习·算法