正则表达式与文本处理器

文本处理器三剑客：grep（查找） sed awk

**正则表达式：**由一类特殊字符以及文本字符所编写的一种模式，处理文本当中的内容

其中的一些字符不表示字符的字面含义，这些字符表示控制或者通配的功能

**通配符：**匹配文件名和目录名，不能匹配文件内容

正则表达式有两种匹配结果：命令结果和文件内容都可以进行匹配

通配符：

*：匹配任意一个或多个字符例：ls *.txt

？：匹配任意一个字符例：ls ?,txt

：匹配范围内的任意单个字符例：touch {a..z}.txt ls $a-b$ .txt

正则表达式：有两种形态 1、基本正则表达式 2、拓展正则表达式两者仅限于写法上的区别，其他一样

基本正则：字符匹配，元字符，匹配的部分需要用引号引起来

. ：表示匹配任意的单个字符，可以是一个汉字例：ls | grep "12**.**"

\ ：表示转义符 \.才是表示一个点

()：表示分组的意思 ：这时仅表示( )

：匹配已指定范围内的任意单个字符

例： $0-9$ $A-Z$ $a-z$ ls | grep " $0-9$ " 显示所有：ls | grep " $0-9 a-z A-Z$ " 标准写法

$\^$ ：表示取反，指定范围外的

例：ls | grep " $A-Z0-9**.**$ " **.**也算字符

例：以rc开头，任意单个字符，0-6的数字

只匹配以rc.为开头的文件

过滤/etc/passwd中任意的两个字符r和t

总结：通配符不能完全匹配大小写，真正的大小写在正则表达式中

表示匹配不是a或者z的任意字符

正则表达式中表示次数的表达式：

*：匹配前面的字符任意次，0次也行，无数次也行，有多少匹配多少，没有也行

.*：也是匹配任意长度的字符，但是至少要有一次，不包括0次

最少前面要有一个o，否则不匹配

\?：表示匹配前面的字符0次或者1次（即可有可无）

有则匹配，没有也匹配

\+：匹配前面的字符至少一次，最多可以无数次

\{n\}：匹配前面的字符=n次精确匹配 n：表示前面字符出现的次数，多一次少一次都不行、、

\{m，n\}：匹配前面的字符最少m次，最多n次

\{，n\}：匹配前面的字符最多n次大于n不行 o最少出现n次

\{n，\}：匹配前面的字符至少n次小于n不行

匹配次数就是核心

**位置锚定：**以什么为开头，以什么为结尾

^：以什么为开头，在模式的左侧 ^r 以r为开头

$：以什么最为结尾，在模式的右侧 r$ 以r为结尾

^ root $：用于匹配整行，而且整行中只有一个root，多一个少一个都不行

^$：匹配空行

词首锚定和词尾锚定（用的较少）

词尾铆钉：<或者 \b 推荐用\b因为更直观，用\b的位置来判断词首和词尾

词首锚定：>或者 \b

例：

分组：用**（）**进行表示

精确匹配**\{\} 一定要连续出现 \{,3\} 就不用连续出现**

\{n\} 表示正好n次，n次表示前面的字符必须连续出现才能出现

\{，n\} 只要出现几次都算，除非没有

例：

只匹配gogle

\ |：表示逻辑或

扩展正则：就是把**\**去掉不用再写，但是也有要求 grep 要写成 grep -E 或 egrep