我认为这是
sklearn
中的常规任务,因此该软件包中必须有一些工具可以完成此操作,或者在其他SO问题中有答案。我们需要添加正确的标记。
但是仅从我对
numpy
和
sparse
的了解来看,我会做以下事情:
创建一个样本2D数组- N行,2列,其中包含字符值:
In [638]: A=np.array([('a','b'),('b','d'),('a','d'),('b','c'),('d','e')])
In [639]: A
Out[639]:
array([['a', 'b'],
['b', 'd'],
['a', 'd'],
['b', 'c'],
['d', 'e']],
dtype='<U1')
使用
np.unique
来识别唯一的字符串,并作为奖励提供从这些字符串到原始数组的映射。这是该任务的核心。
In [640]: k1,k2,k3=np.unique(A,return_inverse=True,return_index=True)
In [641]: k1
Out[641]:
array(['a', 'b', 'c', 'd', 'e'],
dtype='<U1')
In [642]: k2
Out[642]: array([0, 1, 7, 3, 9], dtype=int32)
In [643]: k3
Out[643]: array([0, 1, 1, 3, 0, 3, 1, 2, 3, 4], dtype=int32)
我可以重塑那个
inverse
数组,以确定每个
A
中的条目所在的行和列。
In [644]: rows,cols=k3.reshape(A.shape).T
In [645]: rows
Out[645]: array([0, 1, 0, 1, 3], dtype=int32)
In [646]: cols
Out[646]: array([1, 3, 3, 2, 4], dtype=int32)
使用这些工具,构建一个每个“交叉点”处都有
1
的稀疏矩阵是轻而易举的。
In [648]: M=sparse.coo_matrix((np.ones(rows.shape,int),(rows,cols)))
In [649]: M
Out[649]:
<4x5 sparse matrix of type '<class 'numpy.int32'>'
with 5 stored elements in COOrdinate format>
In [650]: M.A
Out[650]:
array([[0, 1, 0, 1, 0],
[0, 0, 1, 1, 0],
[0, 0, 0, 0, 0],
[0, 0, 0, 0, 1]])
第一行,a
在第二列和第四列有值,分别是 b
和 d
,以此类推。
============================
原始内容:
In [648]: M=sparse.coo_matrix((np.ones(k1.shape,int),(rows,cols)))
这是错的。
data
数组应该与
rows
和
cols
的形状匹配。这里没有引发错误,因为
k1
恰好具有相同的大小。但是,如果混合不同的唯一值,则可能会引发错误。
====================
这种方法假设整个数据库
A
可以加载到内存中。
unique
可能需要类似的内存使用。最初,
coo
矩阵可能不会增加内存使用量,因为它将使用提供作为参数的数组。但是,任何计算和/或转换为
csr
或其他格式都将进行进一步的复制。
我可以想象通过分块加载数据库并使用某些其他结构来获取唯一值和映射来解决内存问题。您甚至可以从块构造一个
coo
矩阵。但迟早你会遇到内存问题。scikit 代码将创建该稀疏矩阵的一个或多个副本。