Python3 编码替换Unicode字符

Question

Python3 编码替换Unicode字符

3

根据文档，以下命令为：

'Brückenspinne'.encode("utf-8",errors='replace')

应该给我字节序列b'Br??ckenspinne'。但是，Unicode字符尽管被编码，但并未替换：

b'Br\xc3\xbcckenspinne'

你能告诉我如何实际消除Unicode字符吗？（我使用replace进行测试，我打算稍后使用'xmlcharrefreplace'。老实说，我想将Unicode字符转换为其xmlcharref，并将所有内容保留为字符串）。

谢谢。

- Lærne

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- falsetru · Accepted Answer

utf-8 编码可以表示字符 ü，不会出现替换。

使用其他无法表示该字符的编码。例如 ascii：

>>> 'Brückenspinne'.encode("ascii", errors='replace')
b'Br?ckenspinne'

>>> 'Brückenspinne'.encode("ascii", errors='xmlcharrefreplace')
b'Br&#252;ckenspinne'