七、正则表达式

在进行程序设计的过程中，会不可避免地遇到处理某些文本的情况。有的时候，用户还需要查找符合某些比较复杂规则的字符串。对于这些情况，如果单纯依靠程序设计语言本身，则往往会使得用户通过复杂的代码来实现。但是，如果使用正则表达式，则会以非常简短的代码来完成。

正则表达式是通过一些特殊字符的排列匹配到符合需求的文本内容，可以用linux的文本处理工具命令查看、修改、删除符合正则匹配规则的文本。由于正则表达式语法简练，功能强大，得到了许多程序设计语言的支持，包括python、Java、C++、Perl以及Shell等。

7.1 基本正则表达式

基本正则表达式（Basic Regular Expression，BRE），又称为标准正则表达式，是最早制订的正则表达式规范，仅支持最基本的元字符集。基本正则表达式是POSIX规范制订的两种正则表达式语法标准之一，另外一种语法标准称为扩展正则表达式。

元字符	说明	示例
^	以某个字符串开头	^a
$	以某个字符串结尾	b$
.	匹配任意单个字符	.*
*	对前一项进行0次或者多次重复匹配	a，.， $0-9a-zA-Z$ *
\[\]	对方括号内的单字符进行匹配	$a-zA-Z0-9$ ， $\[:space:$ ]
$\^$	不匹配方括号内的单字符	$^a-z$ ，^ $\^a-z$
\	转义字符，让一些特殊符号失效	\.，.\..
{m,n}	将前一项重复匹配m-n次	{,n}，{m,}，{m}
()	定义子表达式的开始和结束位置	正则表达式"(love).*\1"表示匹配2个"love"中间包含任意个字符的文本行，其中"\1"表示引用前面的"love"
\<或\b:锚定词首;\>或者\b:锚定词尾	其后面的任意字符必须作为单词首部出现；其前面的任意字符必须作为单词尾部出现	如 \<love或\blove；如 love\>或love\b

POSIX字符类是一个形如[:...:]的特殊元序列（meta sequence），他可以用于匹配特定的字符范围。

正则表达式描述示例

$:alnum:$ 匹配任意一个字母或数字字符 $\[:alnum:$ ]+

$:alpha:$ 匹配任意一个字母字符（包括大小写字母） $\[:alpha:$ ]

$:blank:$ 空格与制表符（横向和纵向） $\[:blank:$ ]*

$:digit:$ 匹配任意一个数字字符 $\[:digit:$ ]?

$:lower:$ 匹配小写字母 $\[:lower:$ ]

$:upper:$ 匹配大写字母 ( $\[:upper:$ ]+)?

$:punct:$ 匹配标点符号 $\[:punct:$ ]

$:space:$ 匹配一个包括换行符、回车等在内的所有空白符 $\[:space:$ ]+

$:graph:$ 匹配任何一个可以看得见的且可以打印的字符 $\[:graph:$ ]

$:xdigit:$ 任何一个十六进制数（即：0-9，a-f，A-F） $\[:xdigit:$ ]+

$:cntrl:$ 任何一个控制字符（ASCII字符集中的前32个字符) $\[:cntrl:$ ]

$:print:$ 任何一个可以打印的字符 $\[:print:$ ]

正则表达式	描述	示例
$:alnum:$	匹配任意一个字母或数字字符	$\[:alnum:$ ]+
$:alpha:$	匹配任意一个字母字符（包括大小写字母）	$\[:alpha:$ ]
$:blank:$	空格与制表符（横向和纵向）	$\[:blank:$ ]*
$:digit:$	匹配任意一个数字字符	$\[:digit:$ ]?
$:lower:$	匹配小写字母	$\[:lower:$ ]
$:upper:$	匹配大写字母	( $\[:upper:$ ]+)?
$:punct:$	匹配标点符号	$\[:punct:$ ]
$:space:$	匹配一个包括换行符、回车等在内的所有空白符	$\[:space:$ ]+
$:graph:$	匹配任何一个可以看得见的且可以打印的字符	$\[:graph:$ ]
$:xdigit:$	任何一个十六进制数（即：0-9，a-f，A-F）	$\[:xdigit:$ ]+
$:cntrl:$	任何一个控制字符（ASCII字符集中的前32个字符)	$\[:cntrl:$ ]
$:print:$	任何一个可以打印的字符	$\[:print:$ ]

7.2 扩展正则表达式

扩展正则表达式（Extended Regular Expression，ERE）支持比基本正则表达式更多的元字符。前面介绍的基本正则表达式元字符在扩展正则表达式都得到了支持，并且其意义和用法都完全相同，不再重复介绍。接下来重点介绍一下在扩展正则表达式中新增加的一些元字符。

元字符	说明	示例
?	将前一项进行0次或者1次的重复匹配	a?，.?， $a-z$ ?
+	将前一项进行1次或者多次的重复匹配	$a-z$ +，.+
(\|)	匹配\|符号左边或者右边的字符	"(root\|student\|centos)"