我有一个json文件,其中包含以下文本:
"\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092"
这段文本代表希伯来语中的“אחוזת פולג”。
无论我使用哪种编码/解码方法,在 Python 3 中都似乎无法正确地处理它。
例如,如果我尝试:
text = "\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092".encode('unicode-escape')
print(text)
我明白“text is”是什么意思:
b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'
在字节码中,几乎是正确的文本,如果我能够去除仅有的一个反斜杠并转换。
b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'
转化为
text = b'\xd7\x90\xd7\x97\xd7\x95\xd7\x96\xd7\xaa \xd7\xa4\xd7\x95\xd7\x9c\xd7\x92'
注意我将双斜杠改为单斜杠,然后
text.decode('utf-8')
我希望能够得到正确的希伯来文本。
但我正在努力实现它,却无法创建一个可以为我完成此操作的代码片段(而不是手动处理,如我刚刚展示的...)
非常感谢任何帮助...