Python3 编码替换Unicode字符

3
根据文档,以下命令为:
'Brückenspinne'.encode("utf-8",errors='replace')

应该给我字节序列b'Br??ckenspinne'。但是,Unicode字符尽管被编码,但并未替换:

b'Br\xc3\xbcckenspinne'

你能告诉我如何实际消除Unicode字符吗?(我使用replace进行测试,我打算稍后使用'xmlcharrefreplace'。老实说,我想将Unicode字符转换为其xmlcharref,并将所有内容保留为字符串)。

谢谢。

1个回答

3

utf-8 编码可以表示字符 ü,不会出现替换。

使用其他无法表示该字符的编码。例如 ascii

>>> 'Brückenspinne'.encode("ascii", errors='replace')
b'Br?ckenspinne'

>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace')
b'Brückenspinne'

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接