用变量的内容替换两个占位符之间的所有内容。

5
你好, 我一直在尝试找出如何在两个占位符之间替换/插入文本字符串的方法。
#start
REPLACE ANYTHING IN HERE
#end

最初我试图通过sed的BASH实现这一点,但当我尝试将变量传递给sed时遇到了障碍。

sed -n -i '/#start/{p;:a;N;/#end/!ba;s/.*\n/hello\n/};p' file.txt

返回

#start
hello
#end

但是当我尝试时,却没有成功的喜悦。

sed -n -i '/#start/{p;:a;N;/#end/!ba;s/.*\n/$replace_var\n/};p' file.txt

或者

sed -n -i "/#start/{p;:a;N;/#end/!ba;s/.*\n/$replace_var\n/};p" file.txt

我已经花了几个小时在这个问题上,并且进行了搜索,但是没有找到解决方案。我可以尝试使用Python或其他语言,或者也可以用awk。由于我对此领域还比较陌生,所以任何有用的信息都将不胜感激。

提前致谢

最终我选择了以下脚本。它与cron配合使用,更新我的/var/etc/hosts.deny文件,使其包含最新发布的ssh阻止列表。

import re
import urllib2

hosts_deny = open('/etc/hosts.deny','r+')
hosts_deny_text = hosts_deny.read()

blockedHosts = urllib2.urlopen('http://www.openbl.org/lists/hosts.deny').read()
place = re.compile('(?<=#start)(\r?\n)'
                   '(.*?)'
                   '(?=\r?\n#end)',re.DOTALL)#DOTALL enables '.' to also include
                                             #a new line
hosts_deny_text = re.sub(place, '\n'+ blockedHosts, hosts_deny_text)
hosts_deny.seek(0)
hosts_deny.write(hosts_deny_text)
hosts_deny.close()

不错的第一个问题 :) - squiguy
5个回答

3

这个似乎可以满足您的需求:

sed -ie "/#start/,/#end/{/#start/b;/#end/b;s/.*/$replace_var/;}" file.txt

内部的/#start/b/#end/b跳过这些行,否则您也会替换它们。

这将用 $replace_var 替换标记之间的每一行,我认为这不是 OP 想要的。 - Thor
你能帮我读一下这个吗?我相信正则表达式的威力,但由于它是一个相当复杂的概念,我发现我的学习曲线有点平缓。非常感谢。 - user1690442
@Jason:第一对模式使它应用从#start到#end中的{...}中的内容,其他任何内容都会被忽略。在{}中,如果该行包含#start或#end,则我们将分支(b)到脚本的末尾,以便让它们保持不变。#start和#end之间的任何内容都可以通过s///进行更改。 (这似乎是您在原始问题中想要的内容(已进行编辑),但您当然可以使其更具选择性。) - William
@William非常感谢你的解释,我也会尝试这种方法。我喜欢一行代码搞定的感觉。 - user1690442

2
鉴于您的解释,我只能提出这个简单的代码:
import re

ss = '''qslkjqskqsdhf
#start
REPLACE ANYTHING IN HERE
#end
2135468761265
'''

reg = re.compile('(?<=#start)(\r?\n)'
                 '(.*?)'
                 '(?=\r?\n#end)',re.DOTALL)

print ss
print '----'
print reg.sub('\\1Ia orana',ss)

结果

qslkjqskqsdhf
#start
REPLACE ANYTHING IN HERE
#end
2135468761265

----
qslkjqskqsdhf
#start
Ia orana
#end
2135468761265

根据他的问题,我认为他想保留#start#end(至少他的示例显示了这一点)。可以通过正向回顾和正向预查来实现:r'(?<=#start\n)(.*?)(?=\n#end)' - Stjepan Bakrac
@StjepanBakrac:...或者只需将它们添加回去,可以硬编码,也可以通过匹配并使用\1\2 - abarnert
是的,我确实想要占位符保留下来——将来我会记住更好地定义问题。我考虑按照你的建议,通过将它们添加到“替换文本”中来恢复它们,但我对这种前后查找方法很感兴趣。之前我在想如何向sed表达我想要的文件段时,就已经想象过类似的东西了。 - user1690442
@aBarnert a) 我想不出一个例子。有没有什么例子? b) 因为它需要一个固定长度的模式,所以在遍历字符串本身时可以很容易地在线性时间内检查它。它所做的就是将其从匹配中排除。总的来说,正则表达式都是相对低效的,与其他方法相比。但是,它们背后的基本思想是为了牺牲效率而获得更强大的功能,使您能够用一行代码完成原本需要一个块才能完成的工作。 c) 非常正确,但这就是你学习它的原因,这样你就可以更轻松、更可靠地使用困难的工具。 - Stjepan Bakrac
@abarnert 我在谈论一行语句中的正则表达式。你的方法很好,只是在不需要引用的地方使用了引用。在#-字符串之前、之间和之后分割整个字符串,替换中间部分,然后通过这些字符串将它们连接起来也可以正常工作。只是增加了一些不必要的步骤。它们是否足够容易或简单,这取决于每个人自己的决定。eyquem所说的只是关于额外回车符的问题,以使其与平台无关。对于仅有\n换行符,它可以正常工作。 - Stjepan Bakrac
显示剩余6条评论

0
你可以将文件读入字符串,然后执行以下操作:
sstart = s.split(start)
for i in range(len(s)):
   if i%2 ==1:
      send = sstart[i].split(end)
      for i in range(len(send)):
           if i%2 == 0:
                send[i] = REPLACEMENT
      sstart[i] = send.join()
s = sstart.join()

所以你基本上是在遍历列表,剪掉需要替换的部分,然后将这些部分粘合在一起。


0

使用“dotall”正则表达式很容易实现。在Perl、Python、PCRE等语言中都很容易。例如,在Python中:

>>> s = '''#start
... REPLACE ANYTHING IN HERE
... #end'''
>>> re.sub(r'(?s)(#start\n).*?\n(#end)',
           r'\1hello\n\2', s)
'#start\nhello\n#end'

显然,将起始和结束行匹配并用它们自己替换是过度的,但我决定保持通用性,以防您想进一步扩展它。

我使用了(?s)而不是传递re.DOTALL标志,这样一切都是自包含的,您不必考虑Perl、Python等如何传递标志之间的差异。但在实际生活中,使用标志而不是嵌入它们通常更易读。


0
我认为对于这个任务来说,sed 不太合适,我会使用 awk 代替它:
awk '!f; /#start/ { f=1; print repl } /#end/ { f=0; print }' repl="$replace_var" file.txt

变量 f 是一个标志,用于跟踪我们是否在标记之间。 !f 调用默认块 ({print $0}) 并打印标记之外的所有内容,包括 #start 标记。

测试

eyquem's 回答 复制的测试文件:

cat << EOF > file.txt
qslkjqskqsdhf
#start
REPLACE ANYTHING IN HERE
#end
2135468761265
EOF

将标记之间的内容替换为hello\nhello

awk '!f; /#start/ { f=1; print repl } /#end/ { f=0; print }' repl="$(printf 'hello\nhello')" file.txt

输出:

qslkjqskqsdhf
#start
hello
hello
#end
2135468761265

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接