Unix tr 查找和替换

Question

16

这是我在从网站上 wget 下载标准网页时使用的命令。

tr '<' '\n<' < index.html

然而它给了我新的一行，但没有再次添加左括号。

 echo "<hello><world>" | tr '<' '\n<'

返回

 (blank line which is fine)
 hello>
 world>

代替

 (blank line or not)
 <hello>
 <world>

发生了什么问题？

- Kamran224

4个回答

3

如果您有GNU的grep，这可能适用于您：

grep -Po '<.*?>[^<]*' index.html

应该通过整个HTML，但每个标签应该从行的开头开始，并可能在同一行上跟随非标记文本。

如果您只想要标记：

grep -Po '<.*?>' index.html

然而，你需要知道，使用正则表达式解析HTML并不是一个好主意。

- Dennis Williamson

3

放置换行符的顺序很重要。此外，您可以转义“<”。

`tr '<' '<\n' < index.html`

同样有效。

- felix747

2

这对你有用吗？

awk -F"><" -v OFS=">\n<" '{print $1,$2}'

[jaypal:~/Temp] echo "<hello><world>" | awk -F"><" -v OFS=">\n<" '{$1=$1}1';
<hello>
<world>

您可以在 awk 的 {} 动作前面放置一个正则表达式 / /（您希望发生的行），以实现筛选。

- jaypal singh

1

如果一行中有多个 ><，则 '{$1=$1}1' 更短且有效。 - ephemient

这会比问题中替换更少的<字符。 - Michael J. Barber

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ephemient · Accepted Answer

这是因为tr只进行逐字符的替换（或删除）。

尝试使用sed代替。

echo '<hello><world>' | sed -e 's/</\n&/g'

或者 awk。

echo '<hello><world>' | awk '{gsub(/</,"\n<",$0)}1'

或者perl。

echo '<hello><world>' | perl -pe 's/</\n</g'

或者ruby。

echo '<hello><world>' | ruby -pe '$_.gsub!(/</,"\n<")'

或者 python。

echo '<hello><world>' \
| python -c 'for l in __import__("fileinput").input():print l.replace("<","\n<")'