我可以为您翻译中文。以下是需要翻译的内容:
撇号用
该程序产生以下输出:
我应该如何在Python中正确读取这些最后的字符?我在这里使用编码正确吗?我应该在读取之前尝试删除那些
我有一个Python 2.7程序,从SQLite数据库中读取iOS短信。这些短信是Unicode字符串。在下面的短信中:
u'that\u2019s \U0001f63b'
撇号用
\u2019
表示,但表情符号用\U0001f63b
表示。我查了一下这个表情符号的代码点,是\uf63b
。我不知道0001
是从哪里来的。我对字符编码知之甚少。
当我逐个字符打印文本时,使用:
s = u'that\u2019s \U0001f63b'
for c in s:
print c.encode('unicode_escape')
该程序产生以下输出:
t
h
a
t
\u2019
s
\ud83d
\ude3b
我应该如何在Python中正确读取这些最后的字符?我在这里使用编码正确吗?我应该在读取之前尝试删除那些
0001
,还是有更简单、不那么愚蠢的方法?
0xf63b
位于Unicode的“专用区”中。您确定这是正确的吗?您的代码点可能是0x1f63b
,因为那是一个带有心形眼睛的“笑猫”表情符号。 - Alyssa Haroldsen\uf63b
会成为一个Emoji字符的?根据我的参考资料,它是未定义的:http://www.fileformat.info/info/unicode/char/f63b/index.htm - Mark Ransom