这是对现有问题的扩展:按列名将表格转换为矩阵
我正在使用最终答案:https://dev59.com/1kvSa4cB1Zd3GeqPfIUi#2133898
原始CSV文件矩阵大约有1.5M行,三列...行索引、列索引和一个值。所有数字都是长整数。底层矩阵是一个稀疏矩阵,大小约为220K x 220K,每行平均约有7个值。
原始的read.table工作得很好。
原始的read.table工作得很好。
x <- read.table("/users/wallace/Hadoop_Local/reference/DiscoveryData6Mo.csv", header=TRUE);
当我执行reshape命令时,遇到了问题。
reshape(x, idvar="page_id", timevar="reco", direction="wide")
CPU占用率达到100%,并且永远停在这里。 这台机器(Mac)的内存比R使用的要多。 我不明白为什么构建一个稀疏矩阵需要这么长时间。
我正在使用默认矩阵包。 我没有安装任何额外的东西。 我只是几天前才下载了R,所以应该是最新版本。
有什么建议吗?
谢谢, Wallace
Matrix
包中的sparseMatrix
。 - flodel