我正在清理一个基于文本的数据文件,但无法弄清楚为什么
这是一个我可以在读取文件后解决的问题吗?还是我需要在前端做些什么?例如,Hadley的post关于编码问题让我觉得我需要在读取文件时指定编码语句。然而,我正在从文件夹中读取一堆不同的txt文件,所以我不确定最佳解决方案。基本上,我只想保留所有字母[A-Za-z]并排除其他所有内容。(也就是说,
非常感谢您提供处理此问题的任何建议!
gsub("[[:punct:]]", "", X1)
不能匹配所有标点符号。不幸的是,我无法在这里复制该问题,这使我认为这是一个字符编码问题——相关的标点符号与标准ASCII明显不同。这是一个我可以在读取文件后解决的问题吗?还是我需要在前端做些什么?例如,Hadley的post关于编码问题让我觉得我需要在读取文件时指定编码语句。然而,我正在从文件夹中读取一堆不同的txt文件,所以我不确定最佳解决方案。基本上,我只想保留所有字母[A-Za-z]并排除其他所有内容。(也就是说,
gsub([^A-Za-z], "", X1)
也不起作用!)非常感谢您提供处理此问题的任何建议!
gsub('[.,:]', '', '.,:?;')
来去除标点符号,这个方法可行吗? - rawrgsub('\\W', '', 'fasdfa.,:asdf?;adfa')
,对吗? - rawrgsub("[^A-Za-z]", "", X1)
的问题在哪里?当我在你的反例上尝试时,它似乎运行良好。 - IRTFM