我正在尝试使用R中的tm包进行一些文本分析。我尝试了以下内容:
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
问题在于一些字符无效。我希望能够在R内部或在导入进行处理前从分析中排除无效字符。我尝试使用iconv将所有文件转换为utf-8并排除无法转换为该格式的任何内容,方法如下:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
如此处所指出的批量使用iconv将Latin-1文件转换为UTF-8
但我仍然遇到相同的错误。
我会非常感激任何帮助。
usableText <- iconv(tweets$text, "ASCII", "UTF-8", sub="")
- Agile Bean