Python 中的 URL 解析与构建:urllib.parse 模块详解

前言

最近测试一个需求,入职需要进行音乐基础考试需求,简单说就是通过播放的音频回答填空区是什么音符,当然音频、答案等都是上传到oss的,上传oss后,自动拼一个url然后入库。本以为很顺利,可是到小程序访问的时候,访问不到,仔细排查,才知道是由于链接中包含中文导致的。有上千条数据,如何修改数据呢?这就体现出了python的强大快捷,urllib.parse 轻松帮你搞定。

urllib.parse

当涉及到 Python 中的 URL 解析和操作时,urllib.parse 模块提供了丰富的功能。可以使用这个模块来解析 URL、构建查询字符串、编码和解码 URL 等。

URL 解析

使用 urlparse 函数可以将 URL 字符串解析为各个组成部分,比如 scheme、netloc、path、params、query 和 fragment。以下是一个简单的示例:

python 复制代码
from urllib.parse import urlparse
​
url = "https://www.example.com/path?query=123"
parsed_url = urlparse(url)
​
print(parsed_url.scheme)  # https
print(parsed_url.netloc)  # www.example.com
print(parsed_url.path)    # /path
print(parsed_url.query)   # query=123

从输出结果,可以看出来scheme代表协议、netloc代表域名、path代表路径、query代表参数

构建 URL

使用 urlunparse 函数可以将 URL 的各个部分组合成完整的 URL 字符串。以下是一个简单的示例:

ini 复制代码
from urllib.parse import urlunparse
​
parts = ('https', 'www.example.com', '/path', '', 'query=123', '')
full_url = urlunparse(parts)
​
print(full_url)  # https://www.example.com/path?query=123

从输出结果可以看到,urlunparse可以组合出一个完整的url。

编码和解码

使用 quoteunquote 函数可以对 URL 进行编码和解码操作。这在处理 URL 中的特殊字符或非 ASCII 字符时非常有用。示例:

ini 复制代码
from urllib.parse import quote, unquote
​
original_string = "hello world, this is a test"
encoded_string = quote(original_string)
decoded_string = unquote(encoded_string)
​
print(encoded_string)  # hello%20world%2C%20this%20is%20a%20test
print(decoded_string)  # hello world, this is a test

从输出结果可以看到,quote用来编码字符串,unquote用来解码字符串

实战

知道基础使用后,现在我们处理前言中提到的问题

鉴于url比较简单,并没有参数,只有协议、域名、路径,这就很好解决了,看实现代码

ini 复制代码
def _urlparse(url: str):
    parse_url = urlparse(url)
    path = parse_url.path
    encoded_path = '/'.join(quote(segment) for segment in path.split('/'))
​
    new_url = f"{parse_url.scheme}://{parse_url.netloc}{encoded_path}"
    return new_url

使用 urlparse 函数解析原始 URL,然后提取出路径部分进行处理。对路径部分中的每个段落进行 URL 编码,并将它们拼接在一起,最后生成新的 URL,当然构建URL也可以使用上文提到的urlunparse函数,笔者这里使用了字符串拼接方法。最终脚本只需要增加连接数据库,进行更新操作即可。

最后

不到半小时就完成了脚本编写,并修改了所有数据,这也许就是python的便捷之处吧。当然,文中提到的只是 urllib.parse 模块中的一些常用函数,如果你遇到与笔者相同的问题,这些函数基本够用了,想要更加深入了解,推荐去看官方文档,更多功能可以根据自身场景需要进行探索和使用。

欢迎评论区留下你使用urllib.parse处理过的印象深刻的问题!

相关推荐
逸风尊者7 分钟前
开发需掌握的知识:MQTT协议
java·后端
中年程序员一枚14 分钟前
让postman调用python的开发接口,链接sqlite数据库,让前后联动起来
数据库·python·postman
爱写Bug的小孙24 分钟前
Tools、MCP 和 Function Calling
开发语言·人工智能·python·ai·ai编程·工具调用
rgb2gray26 分钟前
城市韧性与交通基础设施系统耦合协调度的时空演变及影响因素
网络·人工智能·python·ai·写作·耦合·耦合协调
老华带你飞29 分钟前
校务管理|基于springboot 校务管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·spring
初级炼丹师(爱说实话版)32 分钟前
大模型部署-数据并行/模型并行
人工智能·python
JosieBook32 分钟前
【部署】Spring Boot + Vue框架项目生产环境部署完整方案
vue.js·spring boot·后端
油丶酸萝卜别吃33 分钟前
springboot项目中与接口文档有关的注解
java·spring boot·后端
Java爱好狂.42 分钟前
复杂知识简单学!Springboot加载配置文件源码分析
java·spring boot·后端·spring·java面试·后端开发·java程序员
高洁011 小时前
激活函数应该具有哪些特征
人工智能·python·深度学习·神经网络·transformer