GNU awk：在替换文本中访问捕获组

Question

49

这似乎应该很简单，但是awk的gensub/gsub/sub行为对我来说一直不太清楚，现在我无法让它按照文档所说的去做（以及与其他类似工具的经验表明应该可以工作的方式）。具体而言，我想从替换字符串中访问正则表达式中的“捕获组”。以下是我认为awk语法应该如下：

awk '{ gsub(/a(b*)c/, "Here are bees: \1"); print; }'

那应该把 "abbbc" 转换成 "Here are bees: bbb"。但是在 Ubuntu 9.04 上，至少对我而言它没有转换成功。相反， "\1" 被渲染为 ^A；也就是说，它变成了字符代码为1的字符。这当然不是我想要的结果。我该怎么做呢？

谢谢。

- Pointy

2个回答

31

根据gawk手册

gensub提供了一项额外的功能，sub或gsub中不可用：可以在替换文本中指定正则表达式的组成部分。这是通过在正则表达式中使用括号标记组件，然后在替换文本中指定“\N”来实现的，其中N是从1到9的数字。

您必须使用gensub，必须指定"g"，并且必须获取gensub的结果，因为它不会进行原地修改。

awk '{ r = gensub(/a(b*)c/, "Here are bees: \\1", "g"); print r; }'

- Jonathan Feinberg

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user180100 · Accepted Answer

使用GNU awk：

echo abbc | awk '{ print gensub(/a(b*)c/, "Here are bees: \\1", "g", $1);}'

请查看此处的手册，了解gsub和gensub之间的区别

gensub（）提供了一个附加功能，sub（）或gsub（）中不可用：在替换文本中指定正则表达式的组件。这是通过在正则表达式中使用括号标记组件，然后在替换文本中指定“\N”，其中N是从1到9的数字来完成的。