我有一个句子向量,这些句子是从手写文件中扫描出来的。在过程中,出现了一些间距问题,如下所示:
The d og is br own.
我想知道是否有一种通用的方法可以将任何带有'_x_'
或空格-字符-空格模式的内容折叠第二个空格,如下所示:
The d og is br own. --> The dog is br own.
我只担心空格之间的单个字符 ('_x_'
而不是 '_xx_'
)。
有什么建议吗?
我有一个句子向量,这些句子是从手写文件中扫描出来的。在过程中,出现了一些间距问题,如下所示:
The d og is br own.
我想知道是否有一种通用的方法可以将任何带有'_x_'
或空格-字符-空格模式的内容折叠第二个空格,如下所示:
The d og is br own. --> The dog is br own.
我只担心空格之间的单个字符 ('_x_'
而不是 '_xx_'
)。
有什么建议吗?
> x<-"The d og is br own."
> gsub(" (.) "," \\1",x)
[1] "The dog is br own."
或者
gsub(" ([[:alnum:]]) "," \\1",x)
(.)
可以匹配任何字符,([[:alnum:]])
只能匹配字母和数字。