我有一个xml文件,需要转换为utf8编码。不幸的是,该实体包含如下文本:
/mytext,
我正在使用编解码库将文件转换为UTF8格式,但是HTML实体无法与其配合使用。
是否有一种简单的方法来消除HTML编码?
谢谢。
我有一个xml文件,需要转换为utf8编码。不幸的是,该实体包含如下文本:
/mytext,
>>> import lxml.html
>>> html = lxml.html.fromstring("<html><body><p>/mytext,</p></body></html>")
>>> lxml.html.tostring(html)
'<html><body><p>/mytext,</p></body></html>'
最近在回答类似问题时发布了以下内容:
import HTMLParser # html.parser in Python 3
h = HTMLParser.HTMLParser()
h.unescape('/mytext,')
从技术上讲,这种方法是“内部的”和未记录的,但它已经在API中存在了相当长的时间,并且没有标记前导下划线。
在这里找到它;其他方法也被提到,其中BeautifulSoup可能是最好的,如果你不介意它的“沉重”。