我希望使用Perl或MATLAB从一行文本中解析出几个数字。我的文本行是:
t10_t20_t30_t40_
在MATLAB中,我使用了以下脚本:
str = 't10_t20_t30_t40_';
a = regexp(str,'t(\d+)_t(\d+)','match')
它返回
a =
't10_t20' 't30_t40'
我希望它也能返回“t20_t30”,因为这显然是匹配的。为什么正则表达式没有扫描到呢?
因此,我转向了Perl,并在Perl中编写了以下内容:
#!/usr/bin/perl -w
$str = "t10_t20_t30_t40_";
while($str =~ /(t\d+_t\d+)/g)
{
print "$1\n";
}
结果与matlab相同。
t10_t20
t30_t40
但我真的希望"t20_t30"也能出现在结果中。
有人能告诉我如何实现吗?谢谢!
[更新解决方案]: 在同事的帮助下,我使用了Perl所提供的所谓"环视断言"来解决问题。
#!/usr/bin/perl -w
$str = "t10_t20_t30_t40_";
while($str =~ m/(?=(t\d+_t\d+))/g)
{print "$1\n";}
关键是在Perl中使用"零宽度先行断言"。当Perl(和其他类似的软件包)使用regexp扫描字符串时,它不会重新扫描上次匹配中已经扫描过的内容。所以在上面的例子中,t20_t30将永远不会出现在结果中。为了捕获它,我们需要使用零宽度先行搜索来扫描字符串,产生不会从后续搜索中排除任何子字符串的匹配项(请参见上述工作代码)。如果在搜索中附加了"global"修饰符(即m//g),则搜索将从零位置开始,并增加一次尽可能多的次数,使其成为"贪婪"搜索。
这在这篇博客文章中有更详细的说明。
表达式(?=t\d+_t\d+)匹配任何紧随0宽度字符串后面的t\d+_t\d+,从而创建实际的"滑动窗口"。这有效地返回$str中的所有t\d+_t\d+模式,而不排除任何内容,因为$str中的每个位置都是0宽度字符串。额外的括号正在进行滑动匹配(?=(t\d+_t\d+)),因此返回所需的滑动窗口结果。