正则和grep过滤
正则表达式
正则表达式(Regular Expression, RE)是一种字符模式, 用于在查找过程中匹配指定的字符. 在大多数程序里, 正则表达式都被置于两个正斜杠之间;
例如/l[oO]ve/就是由正斜杠界定的正则表达式, 它将匹配被查找的行中任何位置出现的相同模式. 在正则表达式中,元 字符是最重要的概念
元字符使正则表达式具有处理能力。所谓元字符就是指ß那些在正则表达式中具有特殊意义的专用字符,可以用来规定 其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式:/正则表达式/ (两边的//叫做正则的边界)
正则表达式基本元字符
ini
^:行首定位符
$:行尾定位符
.:匹配任意单个字符
*:匹配前导符0-n次
.*:任意多个字符
[]:匹配指定范围内的一个字符
[-]:匹配指定范围内的一个字符,连续的范围
[^]:匹配不在指定组内的字符
\:用来转译元字符,脱意符('' "" \)转义符转译的是右侧字符
\<:词首定位符 //定位词首
\>:词尾定位符 //定位词尾
():集合字符,匹配稍后使用的字符的标签,用法:\(..\)
x\{m\}:前方x字符重复m次
x\{m,\}:前方x字符重复m次以上
x\{m,n\}:前方x字符重复m-n次
\(\) :匹配后的标签,匹配判断,通常在vim编辑器里面使用
正则表达式扩展元字符
判断使用正则
shell
判断时候进行字符判断时可以使用:
= 等于 != 不等于 =~ 匹配
使用正则判断需要
[[ 判断条件 ]]
[[ $num1 =~ ^[0-9]+$ ]] //判断输入是不是数字
[[ $num1 =~ ^[0-9]{长度}+$ ]] //判断输入是不是数字,并且符合长度
[[ $num1 =~ ^[0-9]{长度,长度}+$ ]] //判断输入是不是数字,并且在长度之间
过滤使用扩展元字符正则
ini
过滤时使用egrep或者grep -e
+:匹配1-n个前导字符
?:匹配0-1个前导字符
a|b:匹配a或b
():组字符,括号外与括号里面进行组合进行过滤
x{m}:x字符重复m次
x{m,}:x字符至少重复m次
x{m,n}:x字符重复m-n次
[ \t]:tab按键
语法实例
(expr): 捕获 expr 子模式,以 \1 使用它
(?:expr): 忽略捕获的子模式
(?=expr): 正向预查模式 expr
(?!expr): 负向预查模式 expr
常用的正则表达式
校验数字的表达式
数字:^[0-9]\*$
n位的数字:^\d{n}$
至少n位的数字:^\d{n,}$
m-n位的数字:^\d{m,n}$
零和非零开头的数字:^(0|[1-9][0-9]\*)$
非零开头的最多带两位小数的数字:^([1-9][0-9]\*)+(\.[0-9]{1,2})?$
带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})$
正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
有两位小数的正实数:^[0-9]+(\.[0-9]{2})?$
有1~3位小数的正实数:^[0-9]+(\.[0-9]{1,3})?$
校验字符的表达式
汉字:^[\u4e00-\u9fa5]{0,}$
长度为3-20的所有字符:^.{3,20}$
由26个英文字母组成的字符串:^[A-Za-z]+$
由26个大写英文字母组成的字符串:^[A-Z]+$
由26个小写英文字母组成的字符串:^[a-z]+$
由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
特殊需求表达式
Email地址:^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$
域名:a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
InternetURL:[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$
手机号码:^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$
国内电话码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
日期格式:^\d{4}-\d{1,2}-\d{1,2}
一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])
一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
钱的输入格式:
有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]\*$
这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]\*)$
一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]\*)$
这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$
这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})\*(.[0-9]{1,2})?$
1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})\*)(.[0-9]{1,2})?$
grep过滤编辑器
查找文档内容,常与正则搭配使用
grep:正常搜索
egrep:支持扩展正则
\w:所有字母数字
\W:所有数字字母以外字符,称为非字符
\b:词边界
fgrep:不支持正则
pgrep:检索进程PID号码
返回值
0:寻找成功
1:没有寻找的字符
2:寻找字符的地址不对
参数
-q:静默
-v:去反
-R:在目录下所有的文件内递归搜索查询的内容
-o:只看查询的关键字
-B2:前两行
-A2:后两行
-C2:上下两行
-l:只找文件名
-n:带行号