从字符串中删除特殊字符

Question

从字符串中删除特殊字符

python

10

我有一个包含特殊字符的字符串"Mikael Håfström"，我该如何使用Python将其删除？

- shaan

1

你的字符串是Unicode字符串吗？你想要删除字符还是用“标准”字符替换？ - Sven Marnach

8

每个角色都有其独特的特点。 - Ignacio Vazquez-Abrams

1

相关：如何在Python Unicode字符串中最好地去除重音符号？ - Sven Marnach

3个回答

5

例如使用编码方法：u"Mikael Håfström".encode("ascii", "ignore")

- filmor

你的方法抛出了异常，并且在添加Unicode作为输入编码时返回“Mikael Hfstrm”。 - toutpt

1

请查看effbot文章（包括代码）。它会尽可能地将字符转换为ASCII字符。可以扩展内置的转换表以处理许多其他字符（例如在东欧语言中使用的字符），这些字符没有规范分解。

- John Machin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Filip Dupanović · Accepted Answer

您可以使用unicodedata模块来规范化Unicode字符串并将它们编码为ASCII形式:

>>> import unicodedata
>>> source = u'Mikael Håfström'
>>> unicodedata.normalize('NFKD', source).encode('ascii', 'ignore')
'Mikael Hafstrom'

有一个显著的例外是，Python不识别字母'd'和'D'，它们不会被编码为'd'，因此它们将从结果中被简单地省略掉。这是某些南欧-东欧语言拉丁字母表中的一个带音腭硬颚塞擦音，所以根据您的受众或是否提供对Latin-1字符集的完全支持，它可能会或可能不会立即关注您。我目前正在本地运行Python 2.6.5（Mar 19 2010），问题仍然存在，尽管我确信它可能已经在新版本中得到解决。