Linux ---- Shell编程之正则表达式

一、正则表达式

由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能，类似于增强版的通配符功能，但与通配符不同，通配符功能是用来处理文件名，而正则表达式是处理文本内容中字符。

**作用：**匹配文件中的内容

**本质：**学习各种各样的元字符并记住这个元字符的含义

1、正则表达式概述

通常用于判断语句中，用来检查某一字符串是否满足某一格式
正则表达式是由普通字符与元字符组成
普通字符包括大小写字母、数字、标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式

1.Linux 中常用的有两种正则表达式引擎

基础正则表达式:BRE
扩展正则表达式:ERE

文本处理工具	基础正则表达式	扩展正则表达式
vim 编辑器	支持	\
grep	支持	\
egrep	支持	支持
sed	支持	\
awk	支持	支持

2.正则表达式搜索：

元字符：预定义好的具有特殊含义的符号，这些符号能够进行通配
可读性非常的差
写正则表达式不难

3.部分元字符区别对待：

扩展正则中这些元字符剋直接使用：？、+、{ 、}、| 、（和）。

基础正则中这些元字符需要加反斜线表示转义：\? 、\+ 、 \{ 、\}、\| 、$ 和 $。

grep sed默认使用基础正则表达式

grep -E 、sed -r 、 egrep、awk扩展正则表达式

2、基础正则表达式

基础正则表达式是常用的正则表达式部分，常用的元字符及作用如下表所示：

元字符	作用
\	转义字符，用于取消特殊符号的含义，如：\！，\n
^	匹配字符串开始的位置，如：^world匹配以world开头的行
$	匹配字符串结束的位置，如：world$匹配以world结尾的行
.	匹配除\n(换行)之外的任意的1个字符
*	匹配前面子表达式0次或着多次
$list$	匹配list列表中的一个字符，如： $0-9$ 匹配任意一位数字
$\^list$	匹配任意不在list列表中的1个字符，如： $0-9$ 匹配任意一位非数字字符
\ {n\}	匹配前面的子表达式n次，如： $0-9$ {2\}匹配两位数字
\ {n.\}	匹配前面的子表达式不少于n次，如： $0-9$ \{2,\}表示两位及两位以上数字
\{n,m\}	匹配前面的子表达式n到m次，如： $a-z$ \{2,3\}匹配两到三位的小写字母

注意 egrep， awk使用{n}、{n,}、{n,m}匹配时"{}"前不用加"\"

基本的正则元字符

下面哪些会显示高亮

复制代码

   egrep -E -n 'wo{2}d' test.txt   -E用于显示文件中符合条件的字符
   egrep -E -n 'wo{2,3}d' test.txt

3、扩展正则表达式

扩展正则表达式是对基础正则表达式的扩充和深化
支持的工具有 egerp 和 awk
扩展正则表达式元字符

元字符	作用
+	匹配前面子表达式1次以上，如：go+d，将匹配至少一个o
？	匹配前面子表达式0次或着1次，如：go?d，将匹配gd或god
()	将括号中的字符串作为一个整体，如g(oo)+d，将匹配整体1次以上，如good，goooood等
\|	以或的方式匹配字条串，如：good \| great，将匹配good或着great

1.定位符

^ 匹配输入字符串开始的位置
$匹配输入字符串结尾的位置

2.非打印字符

\n匹配一个换行符
\r匹配一个回车符
\t匹配一个制表符

二、grep命令

grep命令使用正则表达式来搜索文本，并且把匹配的文本打印出来

格式：

复制代码

grep [options] pattern [file]
 
option表示选项，pattern表示匹配的模式。file表示一系列文件名。

常用的选项：

复制代码

-c  只打印匹配的文本行的次数，不显示文本内容。
 
-i   匹配时忽略字母大小写
 
-h  当搜索多个文件，不显示匹配文件名前缀。
 
-l   只列出含义匹配的文本行的文件的文件名，不显示其具体匹配的内容。
 
-n  列出所有匹配的文本行，并显示行号
 
-s   不显示关于不存在或无法读取文件的错误信息
 
-v   只显示不匹配的文本行，反向选择，显示与搜索字符串不相符的行。
 
-w  匹配整个单词
 
-x   匹配整个文本行
 
-r   递归搜索，不仅搜索当前目录，还有各级子目录
 
-E   开启扩展（extend）的正则表达式
 
--color=auto 可以将找到的关键词部分加上颜色的显示