正则表达式

一,正则表达式(Regular Expression)概念

正则表达式是用于描述、匹配、查找及替换一串字符模板的字符串。在编程中,它常用于处理文本数据,如验证用户输入、搜索特定模式的文本等。

二,元字符(Metacharacters)

元字符是正则表达式中具有特殊含义的字符,它们不表示字符本身的字面意义,而是用于指定一个位置、一个条件或字符集合中的一个元素。常见的元字符有:

元字符 匹配内容 说明
. 除去换行符以外的任意字符 匹配除了换行符(\n\r 等)之外的任何单个字符
\w 匹配所有的普通字符(数字、字母、下划线) 等同于 [a-zA-Z0-9_]
\s 匹配任意的空白字符 包括空格、制表符、换页符等空白字符
\d 匹配数字 等同于 [0-9]
\n 匹配一个换行符 匹配行尾符,常用于多行文本中
\t 匹配一个制表符 匹配水平制表符
\b 匹配一个单词边界 并非单词的结尾,而是单词与非单词字符之间的边界
^ 匹配字符串的开始位置 在多行模式中,也匹配每一行的开始
$ 匹配字符串的结束位置 在多行模式中,也匹配每一行的结束
\W 匹配非普通字符(非数字、非字母、非下划线) 等同于 [^a-zA-Z0-9_]
\D 匹配非数字 等同于 [^0-9]
\S 匹配非空白字符 匹配除了空白字符之外的任何字符
`a b` 匹配字母a或b
() 正则表达式分组 匹配括号内的表达式,并捕获匹配的文本(如果需要的话),可以用于引用、反向引用等
[...] 匹配字符组中的字符 匹配方括号中列出的任意单个字符
[^...] 匹配除了字符组中的字符以外的所有字符 匹配不在方括号中列出的任何单个字符

三,量词(Quantifiers)

量词用于指定前面的子表达式可以出现的次数。常见的量词有:

  • *:表示前面的子表达式可以出现零次或多次。
  • +:表示前面的子表达式必须出现至少一次。
  • ?:表示前面的子表达式可以出现零次或一次。
  • {n}:表示前面的子表达式必须出现 n 次。
  • {n,}:表示前面的子表达式至少出现 n 次。
  • {n,m}:表示前面的子表达式至少出现 n 次,但不超过 m 次。

四,字符组(Character Sets)

字符组是用方括号[]括起来的一组字符,用于匹配其中任意一个字符。例如:

  • [abc]:匹配任意一个字符,该字符是 a、b 或 c。
  • [0-9]:匹配任意一个数字,等价于 [0123456789]
  • [a-z]:匹配任意一个小写字母。
  • [A-Z]:匹配任意一个大写字母。
  • [^xyz]:匹配任意一个不在方括号内的字符。

五,贪婪模式与非贪婪模式(Greedy vs Lazy)

  • 贪婪模式(Greedy):正则表达式默认采用贪婪模式,即尽可能多地匹配字符。例如,.*b 匹配以任意字符开头,以 b 结尾的字符串,它会尽可能多地匹配前面的字符。
  • 非贪婪模式(Lazy 或 Reluctant):非贪婪模式是指尽可能少地匹配字符。在量词后面加上 ? 就可以将贪婪模式变成非贪婪模式。例如,.*?b 会尽可能少地匹配前面的字符,直到遇到 b。

六,转义(Escaping)

在正则表达式中,如果我们要匹配元字符本身的字面意义,就需要使用转义字符\。例如,\. 匹配的就是一个点号.本身,而不是任意字符。同样地,如果要匹配反斜杠\本身,也需要使用 \\

注意:不同的编程语言或工具可能对正则表达式的支持有所不同,具体语法和用法需要参考相关文档。

相关推荐
小鸡脚来咯2 分钟前
redis分片集群架构
数据库·redis·架构
钢铁男儿9 分钟前
C# 类和继承(扩展方法)
java·servlet·c#
饮长安千年月16 分钟前
JavaSec-SpringBoot框架
java·spring boot·后端·计算机网络·安全·web安全·网络安全
移动开发者1号17 分钟前
Android 大文件分块上传实战:突破表单数据限制的完整方案
android·java·kotlin
代码匠心17 分钟前
从零开始学Flink:揭开实时计算的神秘面纱
java·大数据·后端·flink
jie1889457586632 分钟前
C++ 中的 const 知识点详解,c++和c语言区别
java·c语言·c++
网安INF37 分钟前
RSA加密算法:非对称密码学的基石
java·开发语言·密码学
christine-rr37 分钟前
征文投稿:如何写一份实用的技术文档?——以软件配置为例
运维·前端·网络·数据库·软件构建
蔡蓝42 分钟前
设计模式-观察着模式
java·开发语言·设计模式
异常君1 小时前
@Bean 在@Configuration 中和普通类中的本质区别
java·spring·面试