七、正则表达式
在进行程序设计的过程中,会不可避免地遇到处理某些文本的情况。有的时候,用户还需要查找符合某些比较复杂规则的字符串。对于这些情况,如果单纯依靠程序设计语言本身,则往往会使得用户通过复杂的代码来实现。但是,如果使用正则表达式,则会以非常简短的代码来完成。
正则表达式是通过一些特殊字符的排列匹配到符合需求的文本内容,可以用linux的文本处理工具命令查看、修改、删除符合正则匹配规则的文本。由于正则表达式语法简练,功能强大,得到了许多程序设计语言的支持,包括python、Java、C++、Perl以及Shell等。
7.1 基本正则表达式
基本正则表达式(Basic Regular Expression,BRE),又称为标准正则表达式,是最早制订的正则表达式规范,仅支持最基本的元字符集。基本正则表达式是POSIX规范制订的两种正则表达式语法标准之一,另外一种语法标准称为扩展正则表达式。
| 元字符 | 说明 | 示例 |
|---|---|---|
| ^ | 以某个字符串开头 | ^a |
| $ | 以某个字符串结尾 | b$ |
| . | 匹配任意单个字符 | .* |
| * | 对前一项进行0次或者多次重复匹配 | a*,.*,[0-9a-zA-Z]* |
| [] | 对方括号内的单字符进行匹配 | [a-zA-Z0-9],[[:space:]] |
| [^] | 不匹配方括号内的单字符 | [a-z],[^a-z] |
| \ | 转义字符,让一些特殊符号失效 | \.,.*\..* |
| {m,n} | 将前一项重复匹配m-n次 | {,n},{m,},{m} |
| () | 定义子表达式的开始和结束位置 | 正则表达式"(love).*\1"表示匹配2个"love"中间包含任意个字符的文本行,其中"\1"表示引用前面的"love" |
| \<或\b:锚定词首;\>或者\b:锚定词尾 | 其后面的任意字符必须作为单词首部出现;其前面的任意字符必须作为单词尾部出现 | 如 \<love或\blove;如 love\>或love\b |
POSIX字符类是一个形如
[:...:]的特殊元序列(meta sequence),他可以用于匹配特定的字符范围。
正则表达式 描述 示例 [:alnum:] 匹配任意一个字母或数字字符 [[:alnum:]]+ [:alpha:] 匹配任意一个字母字符(包括大小写字母) [[:alpha:]] [:blank:] 空格与制表符(横向和纵向) [[:blank:]]* [:digit:] 匹配任意一个数字字符 [[:digit:]]? [:lower:] 匹配小写字母 [[:lower:]] [:upper:] 匹配大写字母 ([[:upper:]]+)? [:punct:] 匹配标点符号 [[:punct:]] [:space:] 匹配一个包括换行符、回车等在内的所有空白符 [[:space:]]+ [:graph:] 匹配任何一个可以看得见的且可以打印的字符 [[:graph:]] [:xdigit:] 任何一个十六进制数(即:0-9,a-f,A-F) [[:xdigit:]]+ [:cntrl:] 任何一个控制字符(ASCII字符集中的前32个字符) [[:cntrl:]] [:print:] 任何一个可以打印的字符 [[:print:]]
7.2 扩展正则表达式
扩展正则表达式(Extended Regular Expression,ERE)支持比基本正则表达式更多的元字符。前面介绍的基本正则表达式元字符在扩展正则表达式都得到了支持,并且其意义和用法都完全相同,不再重复介绍。接下来重点介绍一下在扩展正则表达式中新增加的一些元字符。
| 元字符 | 说明 | 示例 |
|---|---|---|
| ? | 将前一项进行0次或者1次的重复匹配 | a?,.?,[a-z]? |
| + | 将前一项进行1次或者多次的重复匹配 | [a-z]+,.+ |
| (|) | 匹配|符号左边或者右边的字符 | "(root|student|centos)" |