linux系统正则表达式和grep过滤编辑器

正则和grep过滤

正则表达式

正则表达式(Regular Expression, RE)是一种字符模式, 用于在查找过程中匹配指定的字符. 在大多数程序里, 正则表达式都被置于两个正斜杠之间;

例如/l[oO]ve/就是由正斜杠界定的正则表达式, 它将匹配被查找的行中任何位置出现的相同模式. 在正则表达式中,元 字符是最重要的概念

元字符使正则表达式具有处理能力。所谓元字符就是指ß那些在正则表达式中具有特殊意义的专用字符,可以用来规定 其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式:/正则表达式/ (两边的//叫做正则的边界)

正则表达式基本元字符

ini 复制代码
^:行首定位符
$:行尾定位符

.:匹配任意单个字符
*:匹配前导符0-n次
.*:任意多个字符

[]:匹配指定范围内的一个字符
[-]:匹配指定范围内的一个字符,连续的范围
[^]:匹配不在指定组内的字符

\:用来转译元字符,脱意符(''  ""  \)转义符转译的是右侧字符

\<:词首定位符     //定位词首
\>:词尾定位符     //定位词尾

():集合字符,匹配稍后使用的字符的标签,用法:\(..\)

x\{m\}:前方x字符重复m次
x\{m,\}:前方x字符重复m次以上
x\{m,n\}:前方x字符重复m-n次

\(\) :匹配后的标签,匹配判断,通常在vim编辑器里面使用

正则表达式扩展元字符

判断使用正则

shell 复制代码
判断时候进行字符判断时可以使用:
= 等于 != 不等于  =~ 匹配

使用正则判断需要
[[ 判断条件 ]]

[[ $num1 =~ ^[0-9]+$ ]]  //判断输入是不是数字
[[ $num1 =~ ^[0-9]{长度}+$ ]]     //判断输入是不是数字,并且符合长度
[[ $num1 =~ ^[0-9]{长度,长度}+$ ]]     //判断输入是不是数字,并且在长度之间

过滤使用扩展元字符正则

ini 复制代码
过滤时使用egrep或者grep -e

+:匹配1-n个前导字符

?:匹配0-1个前导字符

a|b:匹配a或b

():组字符,括号外与括号里面进行组合进行过滤

x{m}:x字符重复m次
x{m,}:x字符至少重复m次
x{m,n}:x字符重复m-n次

[ \t]:tab按键

语法实例

(expr): 捕获 expr 子模式,以 \1 使用它
(?:expr): 忽略捕获的子模式
(?=expr): 正向预查模式 expr
(?!expr): 负向预查模式 expr

常用的正则表达式

校验数字的表达式

数字:^[0-9]\*$

n位的数字:^\d{n}$

至少n位的数字:^\d{n,}$

m-n位的数字:^\d{m,n}$

零和非零开头的数字:^(0|[1-9][0-9]\*)$

非零开头的最多带两位小数的数字:^([1-9][0-9]\*)+(\.[0-9]{1,2})?$

带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})$

正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$

有两位小数的正实数:^[0-9]+(\.[0-9]{2})?$

有1~3位小数的正实数:^[0-9]+(\.[0-9]{1,3})?$

校验字符的表达式

汉字:^[\u4e00-\u9fa5]{0,}$

长度为3-20的所有字符:^.{3,20}$

由26个英文字母组成的字符串:^[A-Za-z]+$

由26个大写英文字母组成的字符串:^[A-Z]+$

由26个小写英文字母组成的字符串:^[a-z]+$

由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$

中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$

特殊需求表达式

Email地址:^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$

域名:a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?

InternetURL:[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$

手机号码:^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

国内电话码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$

日期格式:^\d{4}-\d{1,2}-\d{1,2}

一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])

一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

钱的输入格式:

有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]\*$

这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]\*)$

一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]\*)$

这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$

这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})\*(.[0-9]{1,2})?$

1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})\*)(.[0-9]{1,2})?$

grep过滤编辑器

查找文档内容,常与正则搭配使用

grep:正常搜索
						
egrep:支持扩展正则
\w:所有字母数字
\W:所有数字字母以外字符,称为非字符
\b:词边界
		
fgrep:不支持正则

pgrep:检索进程PID号码

返回值

0:寻找成功
1:没有寻找的字符
2:寻找字符的地址不对

参数

-q:静默
-v:去反
-R:在目录下所有的文件内递归搜索查询的内容
-o:只看查询的关键字
-B2:前两行
-A2:后两行
-C2:上下两行
-l:只找文件名
-n:带行号
相关推荐
神秘的土鸡12 分钟前
Linux中使用Docker容器构建Tomcat容器完整教程
linux·运维·服务器·docker·容器·tomcat
TravisBytes1 小时前
linux 系统是如何收发数据包
linux·运维·服务器
ice___Cpu2 小时前
Linux 基本使用和 web 程序部署 ( 8000 字 Linux 入门 )
linux·运维·前端
z202305082 小时前
linux 之0号进程、1号进程、2号进程
linux·运维·服务器
狐心kitsune3 小时前
erlang学习:Linux常用命令1
linux·学习·erlang
Book_熬夜!4 小时前
Python基础(九)——正则表达式
python·正则表达式·php
DREAM依旧4 小时前
《深入了解 Linux 操作系统》
linux
阿赭ochre4 小时前
Linux环境变量&&进程地址空间
linux·服务器
Iceberg_wWzZ4 小时前
数据结构(Day14)
linux·c语言·数据结构·算法
计算机学姐4 小时前
基于PHP的电脑线上销售系统
开发语言·vscode·后端·mysql·编辑器·php·phpstorm