似乎有很多关于如何在其他语言中实现这一点的帖子,但我无法弄清楚如何在Python(我正在使用2.7版本)中实现。
明确一点,我希望保留字符串的unicode格式,只是能够替换某些特定字符。
例如:
thisToken = u'tandh\u2013bm'
print(thisToken)
打印中间带有m-dash的单词。我只想删除m-dash。(但是不使用索引,因为我想在任何找到这些特定字符的地方都能做到这一点。)
我尝试使用replace
,就像你处理其他字符一样:
newToke = thisToken.replace('\u2013','')
print(newToke)
但是它就是不起作用。非常感谢任何帮助。 Seth
from __future__ import unicode_literals
,所有字符串文字都将自动转换为Unicode,并且这会对此有所帮助(但是当某些字符串需要字节时要小心,可以为它们使用b
前缀)。 - RemcoGerlich