我在使用R读取一个csv文件时遇到困难,因为这个文件中有一些列是标准的英文字符、一些是数字,还有一些是日文字符。以下是数据样式:
category,desc,otherdesc,volume
UPC - 31401 Age Itameabura,かどや製油 純白ごま油,OIL_OTHERS_SML_ECO,83.0
UPC - 31401 Age Itameabura,オレインリッチ,OIL_OTHERS_MED,137.0
UPC - 31401 Age Itameabura,TVキャノーラ油,OIL_CANOLA_OTHERS_LRG,3026.0
保持R语言设置为英文时,日语字符会被转换成一些无意义的字符。当我将R的语言设置更改为日语,
Sys.setlocale("LC_CTYPE", "japanese")
,我发现文件根本没有被读取。R会报错,显示:
Error in make.names(col.names, unique = TRUE) : invalid multibyte string at 'サcategory'
我不知道我的csv文件或标题名称有什么问题。您能指导我如何将这个csv文件读入R中,以便所有内容都像在csv文件中一样显示吗?
谢谢! Vish
df <- read.table(header = TRUE, sep = ',', text = 'category,desc,otherdesc,volume UPC - 31401 Age Itameabura,かどや製油 純白ごま油,OIL_OTHERS_SML_ECO,83.0 UPC - 31401 Age Itameabura,オレインリッチ,OIL_OTHERS_MED,137.0 UPC - 31401 Age Itameabura,TVキャノーラ油,OIL_CANOLA_OTHERS_LRG,3026.0 ')
对你有用吗?你能提供一个CSV文件的样本吗?看起来像是编码问题... - EDifileEncoding
参数以读取*函数。 - IRTFM.csv
格式。在Mac OS 10.5.8上,使用read.table(file.choose(), sep=",", header=TRUE)
读取时没有任何问题。 - CT Zhu