读取以制表符分隔的文本文件

Question

读取以制表符分隔的文本文件

10

我试图使用以下代码在R中从这个链接读取数据，但我一直收到警告信息并且数据框未正确读取数据。

url <- 'https://onlinecourses.science.psu.edu/stat501/sites/onlinecourses.science.psu.edu.stat501/files/data/leukemia_remission.txt'
df <- read.table(url, sep = '\t',header = F, skip = 2,quote='', comment='')

你能告诉我需要改变什么才能读取数据吗？

编辑

添加数据片段

REMISS  CELL    SMEAR   INFIL   LI  BLAST   TEMP
1   0.8 0.83    0.66    1.9 1.1 1
1   0.9 0.36    0.32    1.4 0.74    0.99
0   0.8 0.88    0.7 0.8 0.18    0.98
0   1   0.87    0.87    0.7 1.05    0.99
1   0.9 0.75    0.68    1.3 0.52    0.98
0   1   0.65    0.65    0.6 0.52    0.98
1   0.95    0.97    0.92    1   1.23    0.99
0   0.95    0.87    0.83    1.9 1.35    1.02

- Clock Slave

1

该文件似乎有许多无效字符。如果您复制其内容，可以使用paste(readClipboard(), collapse="\n")安全地读取它。例如，使用data.table包data.table::fread(paste(readClipboard(), collapse="\n"))。顺便说一句，这不是一个适合在SO上提问的好问题，因为它依赖于外部链接来获取示例数据。 - Frank

我不能说有无效字符。我下载了文件并尝试读取它。我仍然得到相同的错误。然后我用逗号替换了制表符，并通过设置 sep = "," 再次读取它，这样就可以工作了。此外，我添加了 URL，以便人们可以直接复制粘贴并运行代码。但是，我注意到了这一点。谢谢。 - Clock Slave

1

关于无效字符，我认为ycw的回答是正确的方法；我建议手动选择内容，右键->复制到剪贴板。这个粗糙的解决方法对我有效。顺便说一下，不喜欢外部链接的原因是（你可能知道）我们希望问答在未来几年仍然有价值（当大多数这样的链接都会失效时）。 - Frank

真的没错。做出了修正。 - Clock Slave

2个回答

3

此外，请考虑以下内容：

url <- 'https://onlinecourses.science.psu.edu/stat501/sites/onlinecourses.science.psu.edu.stat501/files/data/leukemia_remission.txt'
df <- read.csv(url, sep="\t", header=T)

- bmc

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- www · Accepted Answer

这是一个关于编码的问题。请参考这个帖子获取更多信息 (使用read.csv()读取csv文件时出现“输入中发现嵌入的nul(s)”)。

url <- 'https://onlinecourses.science.psu.edu/stat501/sites/onlinecourses.science.psu.edu.stat501/files/data/leukemia_remission.txt'
df <- read.table(url, sep = '\t',header = TRUE, fileEncoding = "UTF-16LE")