perl踩坑系列=====正则表达式捕获

perl 复制代码
#!/usr/bin/perl -w
use strict;


my $cigar = "18S20M30D20I50H";

my $read_span = 0;

while($cigar =~ s/([0-9]+)([MIDNSHP=X])//){
	#$read_span += $1; #这个不会报错
	if ($2 =~ /[MD]/) {$read_span += $1;} #这个报错,匹配几次就报错几次
}

print "read_span\t$read_span\n";

运行之后,报错的信息如下:

Use of uninitialized value $1 in addition (+) at a.pl line 11.

Use of uninitialized value $1 in addition (+) at a.pl line 11.

read_span 0

为什么直接"read_span += 1;"不会报错,

而多一个if条件中的"if (2 =\~ /\[MD\]/) {read_span += $1;}" 就会报错?

原因在于1,2这类神奇的变量,

每发生一次正则表达式匹配,会生成一套新的捕获结果1,2....$n.

哪怕没有指定1, 2,等,这些变量也会被undef代替,

而不是用上次匹配的1,2.

以我的例子来说,while循环每循环一次,会发生两次匹配。

第一次是:

perl 复制代码
$cigar =~ s/([0-9]+)([MIDNSHP=X])//

第二次是:

perl 复制代码
if ($2 =~ /[MD]/) {$read_span += $1;}

很明显,if条件语句中的1是对应 2 =~ /[MD]/ 的,

而这次匹配并没有指定捕获什么, 所以$1变成undef,

此时再去操作$1(已经变成了undef),当然会报错

当然,匹配一次,重新生成一次1...n的前提是得匹配成功

比如,重新修改一下代码:

perl 复制代码
#!/usr/bin/perl -w
use strict;


my $cigar = "18S20M30D20I50H";

my $read_span = 0;

while($cigar =~ s/([0-9]+)([MIDNSHP=X])//){
        #$read_span += $1;
        if ($2 =~ /[MD]/) {$read_span += $1;}
        print "$1\t$2\n";
}

print "read_span\t$read_span\n";

输出信息(包括报错信息)如下:

18 S

Use of uninitialized value $1 in addition (+) at c.pl line 11.

Use of uninitialized value $1 in concatenation (.) or string at c.pl line 12.

Use of uninitialized value $2 in concatenation (.) or string at c.pl line 12.

Use of uninitialized value $1 in addition (+) at c.pl line 11.

Use of uninitialized value $1 in concatenation (.) or string at c.pl line 12.

Use of uninitialized value $2 in concatenation (.) or string at c.pl line 12.

20 I

50 H

read_span 0

可以看出,

如果 2 =\~ /\[MD\]/ 没有成功,1就仍然是 $cigar =~ s/([0-9]+)([MIDNSHP=X])// 的。

只要 2 =\~ /\[MD\]/ 匹配成功了, 1,$2 都会变。

那么对应的策略就是:

谨慎使用1...n,最好第一时间赋值给其他变量。

比如:

perl 复制代码
#!/usr/bin/perl -w
use strict;


my $cigar = "18S20M30D20I50H";

my $read_span = 0;

while($cigar =~ s/([0-9]+)([MIDNSHP=X])//){
        #$read_span += $1;
        my $number = $1;
        my $operation = $2;
        if ($operation =~ /[MD]/) {$read_span += $number;}
}

print "read_span\t$read_span\n";
相关推荐
We་ct4 分钟前
深度剖析浏览器跨域问题
开发语言·前端·浏览器·跨域·cors·同源·浏览器跨域
skywalk816313 分钟前
在考虑双轨制,即在中文语法的基础上,加上数学公式的支持,这样像很多计算将更加简单方便,就像现在的小学数学课本里面一样,比如:定x=2*x + 1
开发语言
小书房16 分钟前
Kotlin的by
android·开发语言·kotlin·委托·by
就叫飞六吧32 分钟前
QT写一个桌面程序exe并动态打包基本流程(c++)
开发语言·c++
threelab41 分钟前
Three.js 代码云效果 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
V搜xhliang02461 小时前
OpenClaw科研全场景用法:从文献到实验室的完整自动化方案
运维·开发语言·人工智能·python·算法·microsoft·自动化
kaikaile19951 小时前
风、浪、流环境模型的船舶三自由度(纵荡、横荡、艏摇)运动仿真MATLAB
开发语言·人工智能·matlab
fish_xk1 小时前
map和set
java·开发语言
李崧正1 小时前
Java技术分享:Lambda表达式与函数式编程
java·开发语言·python
老了,不知天命1 小时前
鳶尾花項目JAVA
java·开发语言·机器学习