如何解码以\uXXXX编码的Unicode转义序列表情符号?

5
我正在尝试使用Python整理下载的Instagram数据,数据是JSON文件,但表情符号和其他非文本字符以我不理解的方式编码,例如:
JSON文件将包含: \u00e2\u009c\u008c\u00f0\u009f\u0096\u00a4\u00f0\u009f\u008d\u0095\u00f0\u009f\u008e\u00b6\u00f0\u009f\u00a4\u00af。 在Instagram应用程序上显示为: 或JSON:\u00e2\u0080\u0099。Instagram:'(撇号)
我尝试使用u"string"并发现类似的问题这里这里这里,但没有任何一个是用Python编写的或提供对我有用的详细信息。
2个回答

9

尝试

.encode('latin-1').decode('utf-8')))

你好,我正在尝试将该文本写入文件,但是出现了错误:UnicodeEncodeError: 'charmap' codec can't encode characters in position 12-14: character maps to <undefined>。我该如何解决这个问题? - Hayk Petrosyan
@HaykPetrosyan 这个回答解决了你的问题吗?https://dev59.com/Zl4d5IYBdhLWcg3wLf4g - Ani
其实,我后来发现Instagram和Twitter的文本编码是Latin-1或类似的编码。因此,我们必须先从该编码解码,然后再进行UTF-8编码并进行其他操作。 - Hayk Petrosyan
@Ani,这个很赞!你能分享一下源代码或者你是怎么找到它的吗? - gavin

-3

如果你在Windows上,请按下Win + . ,你将会得到一个带有表情符号的提示框,然后输入:print(""),输出:


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接