网址匹配正则表达式(python实现)

网址匹配正则表达式(python实现)

正则表达式部分如下:

python 复制代码
pattern = re.compile(
    r'^(?:http|ftp)s?://'       # http:// or https:// or ftp:// or ftps://
    r'(?:\S+(?::\S*)?@)?'       # 可选的 用户:密码@ 部分
    r'(?:'                      # 开始匹配域名
    r'[A-Z0-9.-]+\.[A-Z]{2,6}'  # 规范的域名,如 example.com
    r'|'                        # 或者
    r'localhost'                # 本地 localhost
    r')'                        # 域名结束
    r'(?::\d{2,5})?'            # 可选的端口号,如 :8080
    r'(?:/?|[/?]\S+)$',         # 可选的路径和查询参数,如 /path 或 /path?query=1
    re.IGNORECASE               # 不区分大小写
)
分段解释
  • r'^(?:http|ftp)s?://':该部分匹配 URL 的协议部分,支持 http://https://ftp://ftps://。其中,s? 表示 s 是可选的,这使得该部分可以匹配带有或不带有 s 的 URL。

  • r'(?:\S+(?::\S*)?@)?':这个部分用于匹配可选的用户信息,即 用户:密码@,这是用于带有身份验证的 URL 的常见格式。? 表示这一部分是可选的,不一定会出现在 URL 中。

  • r'(?:[A-Z0-9.-]+\.[A-Z]{2,6}|localhost)':该部分匹配域名:

    • [A-Z0-9.-]+\.[A-Z]{2,6}:匹配像 example.com 这样的域名,.com 的后缀部分可以是 2 到 6 个字母(如 .com.org.net 等)。
    • localhost:专门处理 localhost 的情况,这是在本地开发时常用的 URL。
  • r'(?::\d{2,5})?':这个部分用于匹配可选的端口号(例如 :8080),其中端口号的位数可以是 2 到 5 位。该部分也是可选的。

  • r'(?:/?|[/?]\S+)$':这个部分匹配 URL 的路径或查询参数部分,可能为空,或者可以是类似 /path/path?query=1 的格式。

  • re.IGNORECASE:这是正则表达式的一个标志,它指定正则表达式在匹配时不区分大小写。

这个正则表达式涵盖了协议、用户信息、域名、端口号、路径等各个 URL 的组成部分,能够处理大多数常见的 URL 格式。

相关推荐
xxjj998a3 分钟前
PHP与汇编:从Web到硬件的编程差异
开发语言·汇编·php
计算机毕业编程指导师8 分钟前
【Python大数据项目推荐】基于Hadoop+Django脑卒中风险分析系统源码解析 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·脑卒中
bestcxx25 分钟前
多个维度对 Java、Python、C#、Go 这四种主流编程语言进行比较
java·python·c#
装杯让你飞起来啊25 分钟前
Kotlin 条件判断 if / when 与智能转换 smart cast
开发语言·python·kotlin
云深处@30 分钟前
【项目一】高并发内存池
java·开发语言
阿里嘎多学长36 分钟前
2026-05-04 GitHub 热点项目精选
开发语言·程序员·github·代码托管
山峰哥36 分钟前
SQL性能提升20倍的秘密:这些优化技巧让DBA都惊叹
开发语言·数据库·sql·编辑器·深度优先·宽度优先
2zcode1 小时前
基于MATLAB的家用场景下扫地机器人路径规划研究设计
开发语言·matlab·机器人
书源丶1 小时前
三十九、Java 枚举——固定常量的「安全卫士」
java·开发语言
计算机毕业编程指导师1 小时前
【大数据毕设推荐】Hadoop+Spark电影票房分析系统,Python+Django全栈实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·电影票房