正则表达式
分类
基础正则表达式:BRE
扩展正则表达式:ERE
编程语言支持的高级正则表达式
BRE 和 ERE的语法基本一致,只有部分元字符(预定义好的带有特殊含义的一些符号)需要特殊对待
grep sed 默认使用的基本正则表达式,grep -E,sed -r,egrep,awk使用扩展正则表达式
基本正则表达式
匹配字符
abc:匹配字符串"abc",普通字符的匹配
abcde...\]:匹配括号内的任意单个字符 a\[xyz\]:匹配ax ay az a\[xyz\]b:匹配axb ayb azb \\n:匹配换行符 \\t:匹配制表符 \\w:匹配单词字符 \[a-zA-Z0-9
\W:匹配非单词字符 [^a-zA-Z0-9]
\s:匹配空白字符
\S:匹配非空白字符
\d:匹配数字
\D:匹配非数字
. :匹配任意单个字符
上面所说的单词,在正则表达式中的含义:[a-zA-Z0-9]组成的字符或字符串都是单词
例如 nihao hello world 都是单词
字符组
a-z\]:代表任意单个小写字母 \[\^a-z\]:只要单个非小写字母的其他任意字符 \[A-Z\]:代表任意大写字母 \[0-9\]:代表任意单个数字 \[0-59\] 代表匹配 0-5 和 9 \[a-z0-9A-Z\]:代表任意字母或数字 \[a-z0-9A-Z_\]:代表任意字母数字下划线 即匹配单词字符 **字符类** \[:lower:\] 等价于 a-z \[:upper:\] 等价于 A-Z \[:alpha:\] 等价于 A-Za-z 也等价于\[:lower:\]+\[:upper:
:digit:\] 等价于0-9 \[:alnum:\] 等价于 等价于0-9A-Za-z 也等价于\[:lower:\]+\[:upper:\]+\[:digit:
:xdigit:\] 匹配十六进制数字 0 1 2 3 4 5 6 7 8 9 a b c d e f (大写也行) \[:blank:\] 匹配空格或制表符 \[:space:\] 匹配空格,制表符,换行符,换页符,垂直制表符,回车符等等所有空白符号 \[:punct:\] 匹配所有标点符号 ! " # $ % \& ' ( ) \* + , - . / : ; \< = \> ? @ \[ \\ \] \^ _ \` {} \[:print:\] 可打印字符,等价于\[:alnum:\]+\[:punct:\]+空格 \[:graph:\] 圆形字符,即能展现字符颜色的符号,等价于\[:alnum:\]+\[:punct:
位置锚定
^ 匹配行首
$ 匹配行尾
\< 匹配单词开头处的位置
\> 匹配单词结尾处的位置
^ 内容 $ 用于匹配整行
^$ 匹配空行
表示次数
* 表示匹配前面的字符任意次,包括0次
.* 任意长度的任意字符
\? 匹配其前面的字符出现0次或1次 即可有可无
\+ 匹配其前面的字符出现最少1次 即:肯定会出现 =>1次
\{n\} 匹配前面的字符n次
\{m,n\} 匹配前面的字符m次 至多n次
\{,n\} 匹配前面的字符至多n次 ,<=n
\{n,\} 匹配前面的字符至少n次
扩展正则表达式
grep -E
egrep 默认使用的 扩展正则
表示次数
* 匹配前面字符任意次
? 0或1次
- 1次或多次
{n} 匹配n次
{m,n} 至少m 至多n次
{,n} 匹配前面的字符至多n次
{n,} 匹配前面的字符至少n次
表示分组
() 分组
分组:() 将多个字符捆绑在一起,当作一个整体处理,如: \(root\)+
后向引用:\1,\2, ...
| 或者
a|b a或b C|cat C或cat (C|c)at Cat 或cat
grep
过滤
格式: grep [选项]... 查找条件 目标文件
选项
-m 匹配m次后停止 grep -m 1 root /etc/passwd #多个匹配只取第一个
-v 取反
-i 忽略大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 静默模式 不输出任何信息 一般用于脚本
-A 打印后指定行
-B 打印前指定行
-C 前后各指定行
-e 实现多个选项间逻辑or关系 grep -e root -e bash /etc/passwd #包含root或者包含bash 的行
-w 匹配整个单词
-E 使用ERE 使用扩展正则
-F 不支持正则表达式 相当于 fgrep
-f file根据模式文件,处理两个文件相同内容 把第一个文件作为匹配条件
-r 递归目录,但不处理逻辑
-R 递归目录,但处理软连接