将矩阵或数据框转换为稀疏矩阵的R代码

43

我有一个常规矩阵(非稀疏矩阵),我想将其转换为sparseMatrix(使用Matrix包)。是否有函数可以做到这一点,还是我需要做很多循环?

例如:

> regMat <- matrix(0, nrow=10, ncol=10)
> regMat[3,5] <- round(runif(1),2)*100
> regMat[2,8] <- round(runif(1),2)*100
> regMat[8,4] <- round(runif(1),2)*100
> regMat[1,6] <- round(runif(1),2)*100
> regMat[7,4] <- round(runif(1),2)*100
> regMat 
      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
 [1,]    0    0    0    0    0   49    0    0    0     0
 [2,]    0    0    0    0    0    0    0   93    0     0
 [3,]    0    0    0    0   20    0    0    0    0     0
 [4,]    0    0    0    0    0    0    0    0    0     0
 [5,]    0    0    0    0    0    0    0    0    0     0
 [6,]    0    0    0    0    0    0    0    0    0     0
 [7,]    0    0    0    8    0    0    0    0    0     0
 [8,]    0    0    0   14    0    0    0    0    0     0
 [9,]    0    0    0    0    0    0    0    0    0     0
[10,]    0    0    0    0    0    0    0    0    0     0
任何建议?

5
优化示例数据的小建议:regMat[cbind(c(3,2,8,1,7),c(5,8,4,6,4))] <- round(runif(5,0,100)) - Aaron left Stack Overflow
3个回答

65

以下有两种选择:

library(Matrix)

A <- as(regMat, "sparseMatrix")       # see also `vignette("Intro2Matrix")`
B <- Matrix(regMat, sparse = TRUE)    # Thanks to Aaron for pointing this out

identical(A, B)
# [1] TRUE
A
# 10 x 10 sparse Matrix of class "dgCMatrix"
#                              
#  [1,] . . .  .  . 45 .  . . .
#  [2,] . . .  .  .  . . 59 . .
#  [3,] . . .  . 95  . .  . . .
#  [4,] . . .  .  .  . .  . . .
#  [5,] . . .  .  .  . .  . . .
#  [6,] . . .  .  .  . .  . . .
#  [7,] . . . 23  .  . .  . . .
#  [8,] . . . 63  .  . .  . . .
#  [9,] . . .  .  .  . .  . . .
# [10,] . . .  .  .  . .  . . .

9
也可以使用 Matrix(regMat, sparse=TRUE)。意思是使用稀疏矩阵的形式来创建一个矩阵对象。 - Aaron left Stack Overflow
谢谢@Aaron。我不知道那个习惯用语,但已将其作为第二个选项添加到答案中。 - Josh O'Brien
@JoshO'Brien,你知道是否有直接从文件转换的选项吗?因为密集矩阵可能太大而无法完全读入内存。谢谢! - Tapper
作为对我的问题的部分回答:有更快的方法来读取文件。 - Tapper

10

乔希的回答很好,但这里有更多选项和解释。

Nit Picky “我有一个常规矩阵(非稀疏)……”实际上你有一个稀疏矩阵(大部分为0的矩阵);只不过它以未压缩的格式存在。你的目标是将它放入压缩存储格式中。

稀疏矩阵可以压缩成多种存储格式。压缩稀疏列 (CSC)压缩稀疏行 (CSR)是两种主要格式。as(regMat, "sparseMatrix")将您的矩阵转换为类型dgCMatrix,这是一种压缩的稀疏列。通常这就是您想要的,但我更喜欢明确说明。

library(Matrix)

matCSC <- as(regMat, "dgCMatrix")  # compressed sparse column CSC
matCSC
10 x 10 sparse Matrix of class "dgCMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

matCSR <- as(regMat, "dgRMatrix")  # compressed sparse row CSR
matCSR
10 x 10 sparse Matrix of class "dgRMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

虽然这两种方式在外观和行为上相同,但它们在内部存储数据的方式不同。 CSC 在检索列数据时更快,而 CSR 在检索行时更快。此外,它们根据数据结构占用不同的空间。
此外,在此示例中,您正在将一个未压缩的稀疏矩阵转换为压缩的矩阵。通常,您这样做是为了节省内存,因此构建未压缩矩阵并将其转换为压缩形式是没有意义的。实际上,更常见的做法是从(row, column, value)三元组表构建压缩的稀疏矩阵,您可以使用Matrix的函数来实现。
# Make data.frame of (row, column, value) triplets
df <- data.frame(
  rowIdx = c(3,2,8,1,7),
  colIdx = c(5,8,4,6,4),
  val = round(runif(n = 5), 2) * 100
)

df
  rowIdx colIdx val
1      3      5  90
2      2      8  27
3      8      4  37
4      1      6  57
5      7      4  91

# Build CSC matrix
matSparse <- sparseMatrix(
  i = df$rowIdx,
  j = df$colIdx, 
  x = df$val, 
  dims = c(10, 10)
)

matSparse
10 x 10 sparse Matrix of class "dgCMatrix"

 [1,] . . .  .  . 57 .  . . .
 [2,] . . .  .  .  . . 27 . .
 [3,] . . .  . 90  . .  . . .
 [4,] . . .  .  .  . .  . . .
 [5,] . . .  .  .  . .  . . .
 [6,] . . .  .  .  . .  . . .
 [7,] . . . 91  .  . .  . . .
 [8,] . . . 37  .  . .  . . .
 [9,] . . .  .  .  . .  . . .
[10,] . . .  .  .  . .  . . .

不要脸地宣传 - 如果您有兴趣,我有一篇博客文章涵盖了这些内容和更多内容。


1

针对矩阵问题,已经有人给出了答案。

对于data.table,有一个包可以胜任此工作。

library(Matrix)
library(mltools)
x = data.table()
sparseM <- sparsify(x) 

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接