我正在尝试对文本进行分类。我的数据集太大了,正如这里建议的那样,我需要使用稀疏矩阵。现在我的问题是,向稀疏矩阵添加元素的正确方法是什么?比方说,我有一个名为X的矩阵作为我的输入。
X = np.random.randint(2, size=(6, 100))
现在这个矩阵X看起来像一个ndarray的ndarray(或类似于这样的东西)。
如果我执行
X2 = csr_matrix(X)
我有一个稀疏矩阵,但是如何向其中添加另一个元素呢? 例如这个密集元素:[1,0,0,0,1,1,1,0,...,0,1,0],如何将其添加到稀疏输入矩阵中? (顺便说一下,我对Python、Scipy、Numpy、Scikit等一切都很陌生。)
csr_matrix
,你会得到完全不同的答案... - zenpoysparse.dok_matrix
是增量工作的更好格式。请参见 http://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.dok_matrix.html#scipy.sparse.dok_matrix 上的示例。 - hpaulj