我知道类似的问题在StackOverflow上已经被问过了。我尝试了一些方法,但是没有找到符合我的需求的可行方案:
给定一个Python字符串,我想去除每个非字母数字字符,但是保留任何特殊字符,如µ æ Å Ç ß…。这是否可能?使用正则表达式,我尝试了以下变化:
re.sub(r'[^a-zA-Z0-9: ]', '', x) # x is my string to sanitize
但它剥夺了我更多的东西,而我并不想要那么多。我想要的一个例子是:
Input: "A string, with characters µ, æ, Å, Ç, ß,... Some whitespace confusion ?"
Output: "A string with characters µ æ Å Ç ß Some whitespace confusion"
这是否可能在不变得复杂的情况下实现?