scipy.sparse.csr_matrix.toarray()的内存占用较大

Question

scipy.sparse.csr_matrix.toarray()的内存占用较大

4

我有一个相当大的稀疏矩阵 A，它是一个scipy.sparse.csr_matrix类型。它具有以下属性：

A.shape: (77169, 77169)
A.nnz: 284811011
A.dtype: dtype('float16')

现在我需要使用.toarray()将其转换为稠密数组。我对内存使用的估计是

77169**2 * (16./8.) / 1024.**3 = 11.09... GB

由于我的计算机有约48GB的内存，因此这应该是可行的。事实上，如果我创建a=np.ones((77169, 77169), dtype=np.float16)，那么这个操作可以正常工作，而且a.nbytes/1024.**3 = 11.09...。然而，当我在稀疏矩阵上运行A.toarray()时，它会占用所有内存并开始使用交换空间（它不会引发MemoryError）。这里出了什么问题？难道它不应该轻松地适合我的内存吗？

- obachtos

你使用的是哪个版本的scipy？可以通过import scipy; print(scipy.__version__)来检查。 - Warren Weckesser

哦，对了，我忘了：SciPy版本是0.15.1。 - obachtos

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- hpaulj · Accepted Answer

对于 csr，toarray() 的作用是将其转换为数组形式。

self.tocoo(copy=False).toarray(order=order, out=out)

你可以继续跟踪coo.toarray，但我怀疑它最终会使用编译后的代码。但我认为它最终会执行以下操作：

In [715]: M=sparse.random(10,10,.2,format='csr')
In [717]: M=M.astype(np.float16)
In [718]: A = np.zeros(M.shape, M.dtype)
In [719]: Mo=M.tocoo()
In [720]: A[Mo.row, Mo.col] = Mo.data

奇怪的是，如果我执行

操作。

In [728]: Mo.toarray()
     ...
    257         coo_todense(M, N, self.nnz, self.row, self.col, self.data,
--> 258                     B.ravel('A'), fortran)
    259         return B
...
ValueError: Output dtype not compatible with inputs.

这里遇到了 float16 的问题。使用 Mo.astype(float).toarray() 没有问题。即使使用 float16 输出的 toarray(out=out) 也会出现错误，这让我怀疑 coo_todense 只编译了几个 dtype 选项。也许我稍后会深入研究。

In [741]: scipy.__version__
Out[741]: '0.18.1'

Warren的错误报告中的一条评论

但是xxx_todense函数实际上是A += X，

表明从Mo.data到A[]的复制比所示的更加复杂。toarray会合并重复项，就像使用Mo.tocsr()或Mo.sum_duplicates()一样。