当需要在两个或多个子模式间插入文本时,这个特性尤其有用。这里有个脚本,它使用子模式在大数字中插入逗号。
$ echo "1234567" | sed '{
> :start
> s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
> t start
> }'
1,234,567
$
这个脚本将匹配模式分成了两部分。
.*[0-9]
[0-9]{3}
这个模式会查找两个子模式。第一个子模式是以数字结尾的任意长度的字符。第二个子模式
是若干组三位数字(关于如何在正则表达式中使用花括号的内容可参考第20章)。如果这个模式
在文本中找到了,替代文本会在两个子模式之间加一个逗号,每个子模式都会通过其位置来标示。
这个脚本使用测试命令来遍历这个数字,直到放置好所有的逗号。
正则表达式中的子模式".*[0-9]"表示匹配任意长度的字符,以数字结尾。这是因为:
- 点号(.):在正则表达式中,点号(.)是一个特殊字符,它匹配除了换行符之外的任何单个字符。
- 星号(*) :星号(*)是一个量词,表示前面的字符可以出现零次或多次。当它跟在点号后面时,就表示匹配任意长度的字符序列。注意:这里的星号会尽可能的多匹配字符。
- 字符集[0-9]:方括号内的范围表示一个字符集,匹配任何一个指定的字符。在这里,[0-9]表示匹配任何一个数字字符。
[0-9]{3}
是一个正则表达式的子模式,它匹配的是恰好由三个数字组成的字符串。
- 字符集[0-9]:在正则表达式中,方括号[]用来定义一个字符集合,匹配任何一个指定的字符。这里的[0-9]表示匹配从0到9之间的任何一个单个数字字符。
- 量词{3}:花括号{}中的3是一个量词,表示前面的字符集[0-9]必须连续出现3次。
疑惑:循环两次的匹配,它到底应该先匹配哪个比较好,我的意思是可以有很多种情况,例如:第一次循环的时候可以是 1,234567 或 1234,567 或 12,34567 等等;所以要循环一次才可以看出来:
bobo@thj:~/Havefun$ echo "1234567" | sed '{
> s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
> }'
1234,567
bobo@thj:~/Havefun$ echo "1234567f" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1234,567f
bobo@thj:~/Havefun$ echo "1234567f123" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1234,567f123
bobo@thj:~/Havefun$ echo "1234,567f123" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1,234,567f123
总结:他是从后面向前面匹配的,先找到最后连续的3个数字,然后向前找一位。感觉上像是在尽力照顾全局。(为什么要这样设计呢?)这是因为在正则表达式中,.*[0-9]
这部分会尽可能多地匹配字符,直到最后一个数字。
可是 为什么*要尽可能多匹配字符,而不是尽可能少的匹配字符呢? (然后发现还有贪婪匹配和非贪婪匹配这种东西😂)
正则表达式中的 *
量词默认是贪婪的,这意味着它会尽可能多地匹配字符。这种设计的原因主要是为了提供一种默认的行为,使得在大多数情况下能够满足匹配的需求。贪婪匹配是一种最大化匹配策略,它尝试找到最长的可能匹配,这样可以确保表达式能够匹配到所有可能的情况。
然而,有时候我们可能需要最小化匹配,即匹配尽可能少的字符。在这种情况下,可以使用非贪婪匹配,通常是通过在量词后面加上一个问号 ?
来实现,如 *?
、+?
、??
等。这样,正则表达式引擎会在找到第一个可能的匹配后停止,不再继续寻找更长的匹配。
- 命令
n
:小写的n
是next命令的简写。这个命令会告诉sed
编辑器移动到输入数据流中的下一行,而不用重新执行当前行上的所有命令。通常sed
会在处理当前行之前的所有命令后,再移动到下一行。但使用n
命令可以改变这一流程,使得sed
在处理完当前行上的某个特定命令后即刻移动到下一行。 - 命令
N
:大写的N
用来将输入数据流中的下一行加到当前行之后,创建一个多行组。这对于处理跨多行的文本操作非常有用。当N
命令执行后,它们会被视为一个整体来处理接下来的sed
命令。
bobo@thj:~/Havefun$ nl data2.txt
1 This is the header line.
2 This is the first data line.
3 This is the second data line.
4 This is the last line.
bobo@thj:~/Havefun$
bobo@thj:~/Havefun$
bobo@thj:~/Havefun$ cat -n data2.txt
1 This is the header line.
2 This is the first data line.
3 This is the second data line.
4 This is the last line.
bobo@thj:~/Havefun$
bash shell 命令也可以添加行号,但是会有间隔。
那么,如何用美元符来显示数据流末尾的若干行呢?答案是创建滚动窗口。
滚动窗口是检验模式空间中文本行块的常用方法,它使用N命令将这些块合并起来。N命令将
下一行文本附加到模式空间中已有文本行后面。一旦你在模式空间有了一个10行的文本块,你可
以用美元符来检查你是否已经处于数据流的尾部。如果不在,就继续向模式空间增加行,同时删
除原来的行(记住,D命令会删除模式空间的第一行)。
通过循环N命令和D命令,你在向模式空间的文本行块增加新行的同时也删除了旧行。分支命
令非常适合这个循环。要结束循环,只要识别出最后一行并用q命令退出就可以了。
$ cat data7.txt
This is line 1.
This is line 2.
This is line 3.
This is line 4.
This is line 5.
This is line 6.
This is line 7.
This is line 8.
This is line 9.
This is line 10.
This is line 11.
This is line 12.
This is line 13.
This is line 14.
This is line 15.
$
$ sed '{
> :start
> $q ; N ; 11,$D
> b start
> }' data7.txt
This is line 6.
This is line 7.
This is line 8.
This is line 9.
This is line 10.
This is line 11.
This is line 12.
This is line 13.
This is line 14.
This is line 15.
如果是最后一行的话就退出,然后将下一行添加到模式空间中去,接着继续执行下面的命令,然后检查这一行是不是11行到最后一行,如果是的话,就删除模式空间的第一行;如此循环处理每一行,因为一共是15行,所以会删除前面5行。
$ cat data8.txt
This is line one.
This is line two.
This is line three.
This is line four.
$
$ sed '/./,/^$/!d' data8.txt
This is line one.
This is line two.
This is line three.
This is line four.
$
,
:表示范围操作符,这里指从匹配第一个模式的行开始到匹配第二个模式的行结束,期间的所有行都将作为一组处理。区间是/./到/^$/。区间的开始地址会匹配任何含有至少一个字符的行。区间的结束地址会匹配一个空行。在这个区间内的行不会被删除。(为什么最后一行就不会删除呢,逆天!!!)
$ cat data10.txt
This is the first line.
This is the second line.
$ sed '{
> :start
> /^\n*$/{$d ; N ; b start }
> }' data10.txt
This is the first line.
This is the second line.
$
这就删除了最后两行了,大写的疑惑?
我们来分析一下,将删除命令改为打印命令,看看是如何循环的:
bobo@thj:~/Havefun$ cat data10.txt | sed '=' | sed 'N; s/\n/ /'
1 This is the first line.
2 This is the second line.
3
4
5
bobo@thj:~/Havefun$ sed '{
:start
/^\n*$/{$p ; N ; b start }
}' data10.txt | sed '=' | sed 'N; s/\n/ /'
1 This is the first line.
2 This is the second line.
3
4
5
6
7
8
bobo@thj:~/Havefun$
首先注意一个问题:sed
编辑器默认情况下并不支持模糊匹配,它采用的是正则表达式进行精确或基于模式的匹配操作
先看前两行,没有被p 命令打印,说明不满足匹配条件;但是我感觉后面三行是整体打印的。