我正在使用Beautiful Soup。它可以获取一些HTML节点的文本,但这些节点包含一些Unicode字符,这些字符在字符串中被转换为转义序列。
例如,一个具有以下内容的HTML元素:
如何将那些Unicode字符转换回UTF-8或其他可读的格式?
例如,一个具有以下内容的HTML元素:
50 €
通过Beautiful Soup获取到的是这样的字符串:
soup.find("h2").text
: 50\u20ac
,只能在Python控制台中阅读。
但是当写入JSON文件时,该字符串变得不可读。
注意:我使用以下代码保存到JSON文件:with open('file.json', 'w') as fp:
json.dump(fileToSave, fp)
如何将那些Unicode字符转换回UTF-8或其他可读的格式?
repr()
。 - Mark Tolonen