perl踩坑系列===正则表达式第2坑---split中的“或”操作符

简单match的情况

先看能否匹配的问题

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/del|ins|delins/){print "match\n"};'
match

加上括号也没问题

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(del|ins|delins)/){print "match\n"};'
match

换几种方式加括号也没问题

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(del)|(ins)|(delins)/){print "match\n"};'
match

换一下顺序,似乎也不影响:

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(ins)|(del)|(delins)/){print "match\n"};'
match
perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(delins)|(ins)|(del)/){print "match\n"};'
match
perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/delins|ins|del/){print "match\n"};'
match
perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(delins|ins|del)/){print "match\n"};'
match

随便怎么变,perl竭诚为您服务。。。。。。。。。。。。

同样的匹配方式,用作split会怎么样?

下面是见证奇迹的时刻:

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /del|ins|delins/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892==CGCT
3 elements

第1个元素是"2892"

第3个元素是"CGCT"

第 2个元素是...空值

惊喜?意外? 百撕不得骑姐..............

如果加个括号:

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /(del|ins|delins)/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=del==ins=CGCT
5 elements

孔子不懂,孟子不懂,老子也.....

如果把括号再玩得花一点:

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /(del)|(ins)|(delins)/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=del=====ins==CGCT
9 elements

除了第一个"2892"和最后一个"CGCT"算正常意外,中间的都不知道是从什么石头缝里蹦出来的。

如果把最长的分隔符"delins"放在最前面

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /delins|del|ins/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=CGCT
2 elements

这是符合预期的。

把字符串改得更妖娆一点,仍然没问题

perl 复制代码
$perl -e 'my $a="2892delinsCGCTdelAGCTinsGGGG"; my @a = (split /delins|del|ins/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=CGCT=AGCT=GGGG
4 elements

只是换个顺序,结果有所改变

perl 复制代码
$perl -e 'my $a="2892delinsCGCTdelAGCTinsGGGG"; my @a = (split /del|ins|delins/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892==CGCT=AGCT=GGGG
5 elements

但这仍然比较好理解,因为"delins"在前就优先用"delins"分割,"del"在前就优先用"del"分割。

但若再加个括号,画风立马改变

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /(delins|del|ins)/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=delins=CGCT
3 elements

分割成了3个元素,而第二个元素,不知道为什么成了"delins"。

括号的花样不同,split作妖的结果也不同

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; my @a = (split /(delins)|(del)|(ins)/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";'
2892=delins===CGCT
5 elements

或许有一天我会有心情来理顺这里面的逻辑,但是现在,与其往死磕,不如绕过去。。。

所以省力的方式是:

不要在split里面使用"|"操作符,而应该将确定的分隔符喂给split

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(delins)|(del)|(ins)/){my @a = (split /$1/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";}'
2892=CGCT
2 elements

当然,还要注意,不要随便使用1...n之类的东西,因为那是perl为您定制的另外一个坑

要将1...n第一时间赋值给其他变量:

perl 复制代码
$perl -e 'my $a="2892delinsCGCT"; if($a=~/(delins|del|ins)/){my $separator = $1; my @a = (split /$separator/, $a); my $b = join "=", @a; print "$b\n"; my $c=scalar(@a); print "$c elements\n";}'
2892=CGCT
2 elements

另外就是还要注意优先顺序,比如:

perl 复制代码
if($a=~/(delins|del|ins)/){}

是优先按"delins"匹配,其次"del",再次 "ins"

"del"和 "ins"不会存在选择优先顺序的,因为这俩字符差异很大

但"delins" 和"del", 或者"delins" 和"ins", 都会存在谁优先的问题。

放在前面的,就优先用于匹配

相关推荐
似水流年 光阴已逝13 小时前
从Excel姓名匹配案例学Python:由点及面的系统化学习指南
开发语言·python·excel
重生之我要当java大帝13 小时前
java微服务-尚医通-管理平台前端搭建-医院设置管理-4
java·开发语言·前端
Q_Q196328847513 小时前
python+vue的在线租房 房屋租赁系统
开发语言·vue.js·spring boot·python·django·flask·node.js
东巴图14 小时前
分解如何利用c++修复小程序的BUG
开发语言·c++·bug
祁同伟.14 小时前
【C++】二叉搜索树(图码详解)
开发语言·数据结构·c++·容器·stl
恒者走天下14 小时前
AI智能网络检测项目(cpp c++项目)更新
开发语言·c++
shayudiandian14 小时前
JavaScript性能优化实战
开发语言·javascript·性能优化
老K的Java兵器库14 小时前
集合性能基准测试报告:ArrayList vs LinkedList、HashMap vs TreeMap、并发 Map 四兄弟
java·开发语言
枫叶丹415 小时前
【Qt开发】多元素类控件(二)-> QTableWidget
开发语言·qt
bin915315 小时前
当AI开始‘映射‘用户数据:初级Python开发者的创意‘高阶函数‘如何避免被‘化简‘?—— 老码农的函数式幽默
开发语言·人工智能·python·工具·ai工具