基于tldextract提取URL里的子域名、主域名、顶级域

小龙在山东2025-01-22 11:13

TLD是TopLevel Domain的缩写。‌tldextract‌ 是一个用于从URL中提取子域、主域名和顶级域（TLD）的Python库。它利用公共后缀列表（Public Suffix List）来确保即使是复杂或不常见的URL结构也能被正确解析。tldextract能够处理包括ICANN管理的公共TLD以及可选的私有域名，帮助开发者准确地分离出URL的各个部分，尤其是在处理多层子域时，避免了简单的字符串分割带来的错误‌。

安装

bash 复制代码

pip install tldextract

示例

python 复制代码

import tldextract

result = tldextract.extract("https://baijiahao.baidu.com/s?id=1821824643075404089")
print(result)
print(result.subdomain)  # 输出子域名
print(result.domain)    # 输出主域名
print(result.suffix)    # 输出顶级域

# ExtractResult(subdomain='baijiahao', domain='baidu', suffix='com', is_private=False)
# baijiahao
# baidu
# com

命令行模式

bash 复制代码

$tldextract
usage: tldextract [-h] [--version] [-j] [-u]
                  [--suffix_list_url SUFFIX_LIST_URL] [-c CACHE_DIR] [-p]
                  [--no_fallback_to_snapshot]
                  [fqdn|url ...]

$tldextract "http://www.baidu.com"
www baidu com

基于tldextract提取URL里的子域名、主域名、顶级域

安装

示例

命令行模式

相关链接