R正则表达式/gsub:如何在字符串中折叠空格

6

我有一个句子向量,这些句子是从手写文件中扫描出来的。在过程中,出现了一些间距问题,如下所示:

 The d og is br own.

我想知道是否有一种通用的方法可以将任何带有'_x_'或空格-字符-空格模式的内容折叠第二个空格,如下所示:

The d og is br own.  --> The dog is br own.

我只担心空格之间的单个字符 ('_x_' 而不是 '_xx_')。

有什么建议吗?


1
我不知道在没有语料库的情况下,你如何确定“ The dog”应该是“ The dog”还是“ Thed og”。 - Joshua Ulrich
@JoshuaUlrich:同意,我正在尝试找到一种方法来统一折叠所有第一个或第二个空格,然后让拼写检查器检查一下,看看效果如何。 - screechOwl
哦,嗯...错过了那部分。看来是时候睡觉了。 - Joshua Ulrich
哈哈,没问题,谢谢你查看。 - screechOwl
1个回答

4
也许。
> x<-"The d og is br own."
> gsub(" (.) "," \\1",x)
[1] "The dog is br own."

或者

gsub(" ([[:alnum:]]) "," \\1",x)

(.)可以匹配任何字符,([[:alnum:]])只能匹配字母和数字。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接