在Python中从Unicode字符串中移除HTML标记

Question

在Python中从Unicode字符串中移除HTML标记

3

我有一个从XML文件中抓取的强类型数据，其中包含一些HTML格式标签

(<b>, <i>, etc)

有没有快速简便的方法从文本中删除所有这些标签？

我尝试过

str = str.replace("<b>","")

我已经尝试将此方法应用到其他标签上多次，但并没有起作用。

- Alex B

请不要将 str 作为变量名。 - Mark Byers

马克，我不是，我只是为了举例才打出来的。 - Alex B

3个回答

1

以下是如何使用BeautifulSoup模块仅替换一些标签，而保留其余HTML的方法：

from BeautifulSoup import BeautifulSoup, NavigableString

def strip_tags(html, invalid_tags):
  soup = BeautifulSoup(html)
  for tag in soup.findAll(True):
    if tag.name in invalid_tags:
      s = ""
      for c in tag.contents:
        if type(c) != NavigableString:
          c = strip_tags(unicode(c), invalid_tags)
        s += unicode(c)
      tag.replaceWith(s)
  return soup

html = "<p>Good, <b>bad</b>, and <i>ug<b>l</b><u>y</u></i></p>"
invalid_tags = ['b', 'i', 'u']
print strip_tags(html, invalid_tags)

结果：

<p>Good, bad, and ugly</p>

- Jesse Dhillon

1

答案取决于您的确切需求。您可以查看正则表达式。但是，如果您想清理糟糕的XML或HTML，则建议使用http://www.crummy.com/software/BeautifulSoup/。

- Achim

听起来他并不想解析任何HTML，只是要将其全部剥离，以便得到纯文本（有点像innerHTML函数）。 - Stephen Swensen

Stephen，你是正确的。我不想解析字符串，我只想删除HTML格式（即尖括号内的任何内容完全删去）。 - Alex B

哎呀，我的意思是innerText属性，而不是“innerHTML函数”。 - Stephen Swensen

您将无法仅仅移除HTML格式而不进行更复杂的解析。对于一些简单的样本可能是可行的，但对于复杂的样本则不行。 - Achim

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user355252 · Accepted Answer

使用lxml.html：

lxml.html.fromstring(s).text_content()

这将删除所有标签并将所有实体转换为它们对应的字符。