我有些困难理解Unicode表达式转换为相应字符的过程。我已经查看了Unicode规范,并找到了各种格式为
在我的程序中,我编写了一个小型正则表达式来查找这些
由于我不知道每个正确Unicode逃逸序列的变化,处理这种情况的最佳方法是什么?是只检查有限数量的这些特殊字符,还是我完全走错了路?
Python版本是2.7。
U+1F600
的字符串。据我所见,似乎没有内置函数能够将这些字符串转换为正确的Python格式,如\U0001F600
。在我的程序中,我编写了一个小型正则表达式来查找这些
U\+.{5}
模式,并用\U000
替换U+
。然而,我发现并非所有Unicode字符的语法都相同,例如零宽连接符实际上应该从U+200D
转换为\u200D
。由于我不知道每个正确Unicode逃逸序列的变化,处理这种情况的最佳方法是什么?是只检查有限数量的这些特殊字符,还是我完全走错了路?
Python版本是2.7。
u'\u200D' == u'\U0000200D'
- ThisSuitIsBlackNot\U00001F600
是一个不同的字符。无论如何还是感谢您! - lindsay