我有一个HTML页面列表,其中可能包含某些编码字符。以下是一些示例 -
<a href="mailto:lad%20at%20maestro%20dot%20com">
<em>ada@graphics.maestro.com</em>
<em>mel@graphics.maestro.com</em>
我希望将这些字符串进行解码(也就是说,转义,当前术语不确定),结果为 -
<a href="mailto:lad at maestro dot com">
<em>ada@graphics.maestro.com</em>
<em>mel@graphics.maestro.com</em>
注意,HTML页面以字符串格式存在。另外,我不想使用任何外部库,如BeautifulSoup或lxml,只能使用本机python库。
编辑-
下面的解决方案并不完美。HTML Parser在使用urllib2进行转义时会抛出异常。
UnicodeDecodeError: 'ascii' codec can't decode byte 0x94 in position 31: ordinal not in range(128)
在某些情况下会出现错误。