基于tldextract提取URL里的子域名、主域名、顶级域

TLD是TopLevel Domain的缩写。‌tldextract‌ 是一个用于从URL中提取子域、主域名和顶级域(TLD)的Python库。它利用公共后缀列表(Public Suffix List)来确保即使是复杂或不常见的URL结构也能被正确解析。tldextract能够处理包括ICANN管理的公共TLD以及可选的私有域名,帮助开发者准确地分离出URL的各个部分,尤其是在处理多层子域时,避免了简单的字符串分割带来的错误‌。

安装

bash 复制代码
pip install tldextract

示例

python 复制代码
import tldextract

result = tldextract.extract("https://baijiahao.baidu.com/s?id=1821824643075404089")
print(result)
print(result.subdomain)  # 输出子域名
print(result.domain)    # 输出主域名
print(result.suffix)    # 输出顶级域

# ExtractResult(subdomain='baijiahao', domain='baidu', suffix='com', is_private=False)
# baijiahao
# baidu
# com

命令行模式

bash 复制代码
$tldextract
usage: tldextract [-h] [--version] [-j] [-u]
                  [--suffix_list_url SUFFIX_LIST_URL] [-c CACHE_DIR] [-p]
                  [--no_fallback_to_snapshot]
                  [fqdn|url ...]

$tldextract "http://www.baidu.com"
www baidu com

相关链接

https://github.com/john-kurkowski/tldextract

相关推荐
东方佑1 小时前
高效序列建模新突破:SamOut模型解读与21.79%损失改进
开发语言·python
ahauedu1 小时前
用Java 代码实现一个简单的负载均衡逻辑
java·python·负载均衡
工业甲酰苯胺2 小时前
Django集成Swagger全指南:两种实现方案详解
python·django·sqlite
豌豆花下猫2 小时前
Python 潮流周刊#112:欢迎 AI 时代的编程新人
后端·python·ai
您的通讯录好友3 小时前
TechGPT2部署
linux·人工智能·python·大模型·techgpt
z are4 小时前
PyTorch 模型开发全栈指南:从定义、修改到保存的完整闭环
人工智能·pytorch·python
抠头专注python环境配置5 小时前
Pycharm、Python安装及配置小白教程
ide·python·pycharm
climber11215 小时前
【Python Web】一文搞懂Flask框架:从入门到实战的完整指南
前端·python·flask
都叫我大帅哥5 小时前
《线性回归:从入门到精通,一篇让你彻底搞懂的诙谐指南》
python·机器学习
都叫我大帅哥5 小时前
🚀 LangGraph终极指南:从入门到生产级AI工作流编排
python·langchain