您应该使用HTMLParser模块来解码 HTML: >>> import HTMLParser >>> h= HTMLParser.HTMLParser() >>> h.unescape('alpha < β') u'alpha < \u03b2' 为了转义HTML,使用cgi模块即可:>>> cgi.escape(u'<a>bá</a>').encode('ascii', 'xmlcharrefreplace') '<a>bá</a>