For english, I could use something like
"specialCharactersFilter": {
"pattern": "[^A-Za-z0-9]",
"type": "pattern_replace",
"replacement": ""
}
}
去除非文本字符。
然而,对于亚洲等非 ASCII 语言,上述过滤器会移除所有有效的非特殊字符。
如何从亚洲语言中移除特殊字符?
"pattern": "[^\\p{L}\\p{Nd}]"
。 - Wiktor Stribiżewjava.util.regex
。 - Wiktor Stribiżew