Python:处理西里尔字母

4
我从API获取了这些数据b'\\u041a\\u0435\\u0439\\u0442\\u043b\\u0438\\u043d\\u043f\\u0440\\u043e'。我确定这是俄语。我猜这些值是斯拉夫字母的Unicode表示形式?
返回的数据是一个字节数组。
如何将其转换为可读的斯拉夫文本?实际上,我需要一种将这种类型转换为可读人类文本的方法。
编辑:是JSON数据。忘记提到了,抱歉。

1
很可能你有JSON数据。 - Martijn Pieters
哦,是的,忘了提一下,它是JSON数据。 - user1757703
1个回答

5

你很可能有一个JSON数据,JSON使用\uhhhh转义序列来表示Unicode代码点。使用json.loads()函数unicode(解码)数据进行操作,以生成Python字符串:

import json

string = json.loads(data.decode('utf8'))

UTF-8是默认的JSON编码;如果您使用基于HTTP的API,请检查响应标头以查看是否使用了不同的编码。

演示:

>>> import json
>>> json.loads(b'"\\u041a\\u0435\\u0439\\u0442\\u043b\\u0438\\u043d\\u043f\\u0440\\u043e"'.decode('utf8'))
'Кейтлинпро'

啊,太好了。我明白了。我一直在想处理非ASCII字符是否有独特的方法,感到有点紧张。 - user1757703

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接