我有一个包含以下模式的Sqlite数据库:
termcount(doc_num, term , count)
Term | Count |
---|---|
like | 3 |
(doc1 , term1 ,12)
(doc1, term 22, 2)
.
.
(docn,term1 , 10)
这个矩阵可以被视为稀疏矩阵,因为每个文档都只包含非零值的很少词语。
我应该如何使用numpy从这个稀疏矩阵创建一个密集矩阵,因为我需要使用余弦相似度计算文档之间的相似性。
这个密集矩阵将看起来像一个表格,其中docid是第一列,所有的词语将列在第一行,其余单元格将包含计数。