有没有办法用简单的ASCII字符“ - ”替换所有类型的连字符?我正在寻找像这样适用于空格的东西:
txt = re.sub(r'[\s]+',' ',txt)
我认为一些非ASCII的连字符“-”会影响正确地去除某些特定停用词(由连字符连接的项目名称)的过程。
例如,我想将AR–L1003替换为AR-L1003,但我希望对整个文本进行替换。
txt = re.sub(r'[\s]+',' ',txt)
我认为一些非ASCII的连字符“-”会影响正确地去除某些特定停用词(由连字符连接的项目名称)的过程。
例如,我想将AR–L1003替换为AR-L1003,但我希望对整个文本进行替换。
txt = re.sub(r'[‐᠆﹣-⁃−]+','-',txt)
标准的re
库不支持使用\p
语法来匹配Unicode类别,但如果您可以导入regex
,那么就有可能实现:
import regex
txt = regex.sub(r'\p{Pd}+', '-', txt)
[ ]+
中? - trincot