无效的多字节字符串 1

8

我是R软件的新手

现在,使用“tm”包学习文本挖掘

我在将文本映射为小写时遇到了问题

sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text)) 
sms_corpus<-Corpus(VectorSource(sms_raw$text))  
tm_map(sms_corpus,content_transformer(tolower))   
error:invalid multubytes string 1

我认为我的csv文件可能不是utf-8编码,所以我尝试将其转换为utf-8编码,但是没有成功。

我的操作系统是win8.1。

如果有人对这个问题有解决方案,请告诉我。


请提供一个简洁的可重现示例,演示您的进展停止的位置。 - Roman Luštrik
1个回答

23

我通过编码函数轻松解决了错误。

我的文件中的列名为text,其中包含多字节字符。

所以我输入:

sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")

这个命令将“text”列(多字节)转换为UTF-8格式


我知道这已经是几年前的事了,但还是谢谢你。解决了我的问题。 - astronomerforfun

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接