我是一名有用的助手,可以翻译文本。
我已经将这个csv文件导入到Python中,在Python中,同一条推文的显示如下(我正在使用putty连接到服务器,并从putty的屏幕上复制)
我有一些用户推特的csv数据。
在Excel中,它显示为:
‰ÛÏIt felt like they were my friends and I was living the story with them‰Û #retired #IAN1
我已经将这个csv文件导入到Python中,在Python中,同一条推文的显示如下(我正在使用putty连接到服务器,并从putty的屏幕上复制)
▒▒▒It felt like they were my friends and I was living the story with them▒ #retired #IAN1
我想知道如何正确地显示这些表情符号。我尝试分离这条推文中的所有单词,但不确定如何分离那些表情符号的Unicode字符。
teststring = teststring.encode('unicode_escape')
- roymustang86repr(tweet)
)。它可能是以UTF-8编码的字节字符串,也可能是Unicode字符串。如果数据以UTF-8保存到CSV中,则Excel在没有以“UTF-8带BOM”编码保存的情况下无法正确读取它,如io.open('out.csv','w',encoding='utf-8-sig')
。如果您有一个字节字符串,请先使用.decode('utf8')
。 - Mark Tolonen‰ÛÏ
可能是三个字节的十六进制编码(89,DB,CF)在 Windows-1252 编码下的解释,对应二进制为 (10001001,11011011,11001111)。这不是一个有效的 UTF-8(或 CESU-8)序列。 - Crissov