我下载了我的Facebook Messenger数据(在你的Facebook账户中,进入设置,然后进入你的Facebook信息,然后下载你的信息,创建一个至少选中了消息框的文件)以进行一些酷炫的统计工作。
但是有一个小问题是编码。我不确定,但看起来像是Facebook对这些数据使用了错误的编码。当我用文本编辑器打开它时,我看到类似于这样的内容:Rados\u00c5\u0082aw
。当我尝试用Python(UTF-8)打开它时,我得到了RadosÅ\x82aw
。然而我应该得到:Radosław
。
我的Python脚本:
text = open(os.path.join(subdir, file), encoding='utf-8')
conversations.append(json.load(text))
我尝试了几种最常见的编码方式。示例数据如下:
{
"sender_name": "Rados\u00c5\u0082aw",
"timestamp": 1524558089,
"content": "No to trzeba ostatnie treningi zrobi\u00c4\u0087 xD",
"type": "Generic"
}