使用Python正则表达式,我如何删除HTML中所有的标签? 这些标签有时具有样式,例如以下内容:
<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
我想要从一大段html字符串中删除包含在sup标签之间的所有内容。
<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
我想要从一大段html字符串中删除包含在sup标签之间的所有内容。
BeautifulSoup
和unwrap()
可以处理您的美丽的sup:
Tag.unwrap()是wrap()的相反操作。它将标签替换为标签内的内容。这对于去除标记非常有用。
from bs4 import BeautifulSoup
data = """
<div>
<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
</div>
"""
soup = BeautifulSoup(data)
for sup in soup.find_all('sup'):
sup.unwrap()
print soup.prettify()
输出:
<div>
(1)
</div>