linux系统正则表达式和grep过滤编辑器

正则和grep过滤

正则表达式
grep过滤编辑器
- 返回值
- 参数

正则表达式

正则表达式(Regular Expression, RE)是一种字符模式, 用于在查找过程中匹配指定的字符. 在大多数程序里, 正则表达式都被置于两个正斜杠之间;

例如/l $oO$ ve/就是由正斜杠界定的正则表达式, 它将匹配被查找的行中任何位置出现的相同模式. 在正则表达式中,元字符是最重要的概念

元字符使正则表达式具有处理能力。所谓元字符就是指ß那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式：/正则表达式/ (两边的//叫做正则的边界)

正则表达式基本元字符

ini 复制代码

^：行首定位符
$：行尾定位符

.：匹配任意单个字符
*：匹配前导符0-n次
.*：任意多个字符

[]：匹配指定范围内的一个字符
[-]：匹配指定范围内的一个字符，连续的范围
[^]：匹配不在指定组内的字符

\：用来转译元字符，脱意符（''  ""  \）转义符转译的是右侧字符

\<：词首定位符     //定位词首
\>：词尾定位符     //定位词尾

()：集合字符，匹配稍后使用的字符的标签，用法：\(..\)

x\{m\}：前方x字符重复m次
x\{m,\}：前方x字符重复m次以上
x\{m,n\}：前方x字符重复m-n次

\(\) ：匹配后的标签,匹配判断，通常在vim编辑器里面使用

正则表达式扩展元字符

判断使用正则

shell 复制代码

判断时候进行字符判断时可以使用：
= 等于 != 不等于  =~ 匹配

使用正则判断需要
[[ 判断条件 ]]

[[ $num1 =~ ^[0-9]+$ ]]  //判断输入是不是数字
[[ $num1 =~ ^[0-9]{长度}+$ ]]     //判断输入是不是数字，并且符合长度
[[ $num1 =~ ^[0-9]{长度,长度}+$ ]]     //判断输入是不是数字，并且在长度之间

过滤使用扩展元字符正则

ini 复制代码

过滤时使用egrep或者grep -e

+：匹配1-n个前导字符

?：匹配0-1个前导字符

a|b：匹配a或b

()：组字符，括号外与括号里面进行组合进行过滤

x{m}：x字符重复m次
x{m,}：x字符至少重复m次
x{m,n}：x字符重复m-n次

[ \t]：tab按键

语法实例

复制代码

(expr)： 捕获 expr 子模式,以 \1 使用它
(?:expr)： 忽略捕获的子模式
(?=expr)： 正向预查模式 expr
(?!expr)： 负向预查模式 expr

常用的正则表达式

校验数字的表达式

复制代码

数字：^[0-9]\*$

n位的数字：^\d{n}$

至少n位的数字：^\d{n,}$

m-n位的数字：^\d{m,n}$

零和非零开头的数字：^(0|[1-9][0-9]\*)$

非零开头的最多带两位小数的数字：^([1-9][0-9]\*)+(\.[0-9]{1,2})?$

带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})$

正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$

有两位小数的正实数：^[0-9]+(\.[0-9]{2})?$

有1~3位小数的正实数：^[0-9]+(\.[0-9]{1,3})?$

校验字符的表达式

复制代码

汉字：^[\u4e00-\u9fa5]{0,}$

长度为3-20的所有字符：^.{3,20}$

由26个英文字母组成的字符串：^[A-Za-z]+$

由26个大写英文字母组成的字符串：^[A-Z]+$

由26个小写英文字母组成的字符串：^[a-z]+$

由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$

中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$

特殊需求表达式

复制代码

Email地址：^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$

域名：a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?

InternetURL：[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$

手机号码：^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

国内电话码(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}

帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\w{5,17}$

日期格式：^\d{4}-\d{1,2}-\d{1,2}

一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])

一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

钱的输入格式：

复制代码

有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]\*$

这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式：^(0|[1-9][0-9]\*)$

一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]\*)$

这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分：^[0-9]+(.[0-9]+)?$

必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的：^[0-9]+(.[0-9]{2})?$

这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样：^[0-9]+(.[0-9]{1,2})?$

这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样：^[0-9]{1,3}(,[0-9]{3})\*(.[0-9]{1,2})?$

1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})\*)(.[0-9]{1,2})?$

grep过滤编辑器

查找文档内容,常与正则搭配使用

复制代码

grep：正常搜索
						
egrep：支持扩展正则
\w：所有字母数字
\W：所有数字字母以外字符，称为非字符
\b：词边界
		
fgrep：不支持正则

pgrep：检索进程PID号码

返回值

复制代码

0：寻找成功
1：没有寻找的字符
2：寻找字符的地址不对

参数

复制代码

-q：静默
-v：去反
-R：在目录下所有的文件内递归搜索查询的内容
-o：只看查询的关键字
-B2：前两行
-A2：后两行
-C2：上下两行
-l：只找文件名
-n：带行号