Linux系统——正则表达式

有一段时间本机访问量过高，如何查看日志提取出访问量前十的信息

1.使用提取命令（cut、awk、sed）提取出ip地址的那一列

2.使用sort按数字排序，将相同的地址整合到一起

3.使用uniq -c统计出数量

4.使用sort 数字数字倒序排序

5.最后用head 取前十

一、正则表达式

搜索字符的方式

精确搜索
正则表达式搜索

元字符：预定好的具有特殊含义的符号，这些符号能够进行通配
可读性非常差
写正则表达式不难

1.含义

正则表达式，又称正规表达式、常规表达式
使用字符串来描述、匹配一系列符合某个规则的字符串
正则表达式组成

普通字符：大写小字母、数字、标点符号及一些其他符号
元字符：在正则表达式中具有特殊意义的专用字符

REGEXP： Regular Expressions，由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能，类似于增强版的通配符功能，但与通配符不同，通配符功能是用来处理文件名，而正则表达式是处理文本内容中字符。

正则表达式被很多程序和开发语言所广泛支持：vim, less,grep,sed,awk, nginx,mysql 等

主要用来匹配字符串（命令结果，文本内容）

通配符匹配文件（而且是已存在的文件）

基本正则表达式（BRE：basic regular expression）
扩展正则表达式（ERE：extended regular expression）
编程语言支持的高级正则表达式

BRE和ERE语法基本一致，只有部分元字符（预定义号的带有特殊含义的一些符号）需要区别对待

扩展正则中，这些元字符可以直接使用：?、+、{、}、|、(和)

基础正则中，这些元字符前需要加转义（\）：\?、\+、\{、\}、\|、$和$
grep sed默认使用基础正则表达式

grep -E、sed -r、egerp、awk扩展正则表达式

|-------|-------------|
| 正则表达式 ||
| . | 任意单个字符 |
| | 任意单个字符 |
| * | 前面字符出现0到正无穷 |
| + | 1到正无穷 |
| {3} | 3次 |
| {n} | n次 |
| （n，） | 最少n次 |
| （，n） | 最多n次 |
| （n，m） | n到m次 |
| ^ | 开头 |
| $| 结尾 | | \\b | 字符串的开头结尾 | | .\* | 1到正无穷约等于+ | | \^$ | 空行 |

2.元字符

元字符	含义
.	匹配任意单个字符，可以是一个汉字
\[\]	匹配指定范围内的任意单个字符，示例： $zhou$ $0-9$ \[\] $a-zA-Z$
$:alpha:$	$0-9a-zA-Z$ = $:alnum:$
$\^$	匹配指定范围外的任意单个字符,示例： $\^zhou$ $\^a.z$ $a.z$
$:alnum:$	字母和数字
$:alpha:$	代表任何英文大小写字符，亦即 A-Z, a-z
$:lower:$	小写字母,示例: $\[:lower:$ ],相当于 $a-z$
$:upper:$	大写字母
$:blank:$	空白字符（空格和制表符）
$:space:$	包括空格、制表符 (水平和垂直)、换行符、回车符等各种类型的空白,比 $:blank:$ 包含的范围广
$:cntrl:$	不可打印的控制字符（退格、删除、警铃...）
$:digit:$	十进制数字
$:xdigit:$	十六进制数字
$:graph:$	可打印的非空白字符
$:print:$	可打印字符
$:punct:$	标点符号
\w	匹配单词构成部分，等价于 $_\[:alnum:$ ]
\W	匹配非单词构成部分，等价于 $\^_\[:alnum:$ ]
\S	匹配任何非空白字符。等价于 $\^ \\f\\n\\r\\t\\v$
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 $\\f\\n\\r\\t\\v$
注意Unicode 正则表达式会匹配全角空格符

bash 复制代码

[root@localhost ~]#ls /etc/|grep rc[.0-6]
#此处的点代表字符
rc0.d
rc1.d
rc2.d
rc3.d
rc4.d
rc5.d
rc6.d
rc.d
rc.local
[root@localhost ~]#ls /etc/ | grep 'rc\.'
#点值表示点需要转义
rc.d
rc.local
[root@localhost ~]# grep r..t /etc/passwd         
#r..t ..代表任意两个字符    
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@localhost ~]# echo abc |grep a.c              
#表示原来的点需要加\转义
abc
[root@localhost ~]# echo abc |grep a\.c
#不加引号有时匹配会有出入
abc
[root@localhost ~]# echo abc |grep 'a\.c'          
#标准格式需要加'' 或者""

[root@localhost ~]# ls |grep '[zhou].txt'    
#匹配[]中任意一个字符
h.txt
o.txt
u.txt
z.txt

[root@localhost ~]# ls [a-d].txt                
#通配符
a.txt  A.txt  b.txt  B.txt  c.txt  C.txt  d.txt
[root@localhost ~]# ls |grep '[a-d].txt'             
#真正的小写在正则表达式中
a.txt
b.txt
c.txt
d.txt
[root@localhost ~]# ls |grep '[^a-z].txt'   
#显示非小写字母
A.txt
B.txt

[root@localhost ~]# ls |grep '[^a.z].txt'     
#[]里就是本意不需要转义

2.1表示次数

元字符	含义
*	匹配前面的字符任意次，包括0次；贪婪模式：尽可能长的匹配
.*	任意长度的任意字符不包括0次
\?	匹配其前面的字符出现0次或1次，即：可有可无
\+	匹配其前面的字符出现最少1次，即：肯定有且≥1次
\{n\}	匹配前面的字符n次
\{m,n\}	匹配前面的字符至少m次，至多n次
\{,n\}	匹配前面的字符，至多n次，≤n
\{n,\}	匹配前面的字符至少n次

bash 复制代码

[root@localhost ~]# echo google |grep 'go\{2\}gle'
#代表前面的o出现2次
google
[root@localhost ~]# echo gooooogle |grep 'go\{2,\}gle'  
#代表前面的o出现2次以上
gooooogle
[root@localhost ~]# echo gooooogle |grep 'go\{2,5\}gle'
#代表前面的o出现2次以上5次以下
gooooogle
[root@localhost ~]# echo goooooogle |grep 'go*gle'    
#表示0次到任意次
goooooogle
[root@localhost ~]# echo ggle |grep "go*gle"
ggle
[root@localhost ~]# echo gggle |grep "go*gle"    
#grep 包含最前面的g不匹配
gggle
[root@localhost ~]# echo gdadadadgle |grep "g.*gle"    
#.*代表任意匹配所有
gdadadadgle
[root@localhost ~]# echo ggle |grep "go\?gle"      
# \?一次或者0次
ggle
[root@localhost ~]# echo gogle |grep "go\?gle"
gogle
[root@[root@localhost ~]# echo google |grep "go\+gle"   
#一个以上
google
[root@localhost ~]# echo gogle |grep "go\+gle"
gogle
[root@localhost ~]# echo ggle |grep "go\+gle"
[root@localhost ~]# echo google |grep "go\?gle"


[root@localhost ~]#echo abc|grep   "[abc]\{3\}"
#需要加引号   
#他的  匹配思路是   [abc]\{3\}   在匹配abc的时候 
#第一轮 看  首字母  是否有abc中的一个，  第二轮也是看是否有abc中的一个  第三轮也是看是否有abc中的一个

bash 复制代码

[root@localhost ~]#ifconfig ens33
ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.241.11  netmask 255.255.255.0  broadcast 192.168.241.255
        inet6 fe80::de6f:32c8:5a64:a6b2  prefixlen 64  scopeid 0x20<link>
        ether 00:0c:29:51:4b:b5  txqueuelen 1000  (Ethernet)
        RX packets 30993  bytes 36718841 (35.0 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 13068  bytes 2850766 (2.7 MiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
[root@localhost ~]#ifconfig ens33|grep netmask
        inet 192.168.241.11  netmask 255.255.255.0  broadcast 192.168.241.255
[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'
192.168.241
255.255.255
192.168.241
[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'|head -n1
192.168.241

3.位置锚定

符号	含义
^	行首锚定，用于模式的最左侧
$	行尾锚定，用于模式的最右侧
^PATTERN$	用于模式匹配整行
^$	空行
^ $\[:space:$ ]*$	空白行（tab、换行、回车）
\<或\b	词首锚定，用于单词模式的左侧（连续的数字，字母，下划线都算单词内部）
\>或\b	词尾锚定，用于单词模式的右侧
\<PATTERN\>	匹配整个单词（\root\）

bash 复制代码

[root@localhost ~]#grep "^[^#]" /etc/fstab 
#过滤出不是以#开头的非空行
/dev/mapper/centos-root /                       xfs     defaults        0 0
UUID=0ebf43c7-c647-4e61-ab4f-cf6c64fb6a0c /boot                   xfs     defaults        0 0
/dev/mapper/centos-swap swap                    swap    defaults        0 0
[root@localhost ~]#cat /etc/fstab 

#
# /etc/fstab
# Created by anaconda on Tue Dec 19 00:11:27 2023
#
# Accessible filesystems, by reference, are maintained under '/dev/disk'
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
/dev/mapper/centos-root /                       xfs     defaults        0 0
UUID=0ebf43c7-c647-4e61-ab4f-cf6c64fb6a0c /boot                   xfs     defaults        0 0
/dev/mapper/centos-swap swap                    swap    defaults        0 0


[root@localhost ~]#grep "^root$" /etc/passwd
#只匹配root这个字符

[root@localhost ~]#echo hello-123|grep "\<123"
hello-123
#除了字母、数字、下划线其他都算单词的分隔符

4.分组或其他

分组：用（）将多个字符捆绑在一起，当作一个整体处理

后向引用：分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为：\1,\2,\3,...；\1表示从左侧第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

bash 复制代码

[root@localhost ~]#ifconfig ens33|grep netmask|grep -o '\([0-9]\{1,3\}\.\)\{3\}[0-9]\{3\}'|head -1
#匹配netmask  匹配0-9任意数字出现三次  .出现三次  0-9任意数字出现三次  取第一个
192.168.241.255
[root@localhost ~]#ifconfig ens33 |grep netmask|grep -Eo '([0-9]{1,3}\.){3}[0-9]{1,3}'|head -1
#匹配netmask  匹配0-9任意数字出现三次  .出现三次  0-9任意数字出现三次  取第一个
192.168.241.11
[root@localhost ~]#ifconfig ens33 |grep netmask|grep -Eo '([0-9]{1,3}.){4}'
#匹配netmask 匹配0-9任意数字 . 出现一到三次  共出现四次
192.168.241.11 
255.255.255.0 
192.168.241.255

5.扩展正则表达式

grep -E egrep 默认使用的是扩展正则表达式

符号	含义
*	匹配前面字符任意次
?	0次或1次
+	1次或多次
{n}	匹配n次
{m,n}	至少n次，至多n次
{,n}	匹配前面的字符至多n次，≤n，n可以为0
{n,}	匹配前面的字符至少n次，≤n，n可以为0

分组	含义
（）分组	分组：() 将多个字符捆绑在一起，当作一个整体处理
\| 或者	a\|b 表示a或b C\|cat C或cat （C\|c）at 表示Cat或cat