pandas.SparseDataFrame
转换为 scipy.sparse.csr_matrix
,而不生成内存中的密集矩阵?scipy.sparse.csr_matrix(df.values)
这不起作用,因为它生成的是一个密集矩阵,该矩阵被转换为csr_matrix
。
提前感谢!
pandas.SparseDataFrame
转换为 scipy.sparse.csr_matrix
,而不生成内存中的密集矩阵?scipy.sparse.csr_matrix(df.values)
这不起作用,因为它生成的是一个密集矩阵,该矩阵被转换为csr_matrix
。
提前感谢!
从pandas版本0.20.0开始(发布于2017年5月5日),可以使用一行代码来实现这个功能:
from scipy import sparse
def sparse_df_to_csr(df):
return sparse.csr_matrix(df.to_coo())
这里使用了新的to_coo()
方法。
在Victor May的答案基础上,这里提供了一个稍微更快的实现方式,但仅适用于整个SparseDataFrame
都是稀疏的情况,而且所有的BlockIndex
都是这种情况(注:如果是通过get_dummies
创建的,那么就满足这个条件)。
编辑说明:我修改了它,使得它可以处理非零填充值。CSR没有本地的非零填充值,所以你需要在外部记录它。
import numpy as np
import pandas as pd
from scipy import sparse
def sparse_BlockIndex_df_to_csr(df):
columns = df.columns
zipped_data = zip(*[(df[col].sp_values - df[col].fill_value,
df[col].sp_index.to_int_index().indices)
for col in columns])
data, rows = map(list, zipped_data)
cols = [np.ones_like(a)*i for (i,a) in enumerate(data)]
data_f = np.concatenate(data)
rows_f = np.concatenate(rows)
cols_f = np.concatenate(cols)
arr = sparse.coo_matrix((data_f, (rows_f, cols_f)),
df.shape, dtype=np.float64)
return arr.tocsr()
series.to_coo()
将每一列转换,然后使用 sparse.bmat()
将它们连接成一个矩阵,这个方案怎么样? - hpauljsklearn
人们喜欢的特征矩阵。 - hpaulj从Pandas版本0.25开始,SparseSeries
和SparseDataFrame
已经被弃用。现在,DataFrames支持稀疏数据类型的列。通过sparse
访问器可以使用稀疏方法,因此转换一行代码现在看起来像这样:
sparse_matrix = scipy.sparse.csr_matrix(df.sparse.to_coo())
pd.get_dummies(df, sparse = True)
需要很长时间。 - learner@Marigold的答案可以解决问题,但由于访问每列中的所有元素(包括零),速度较慢。在此基础上,我编写了以下快速且不太规范的代码,使用密度约为1%的1000x1000矩阵时,运行速度约为原先的50倍。我的代码还适当处理了密集列。
def sparse_df_to_array(df):
num_rows = df.shape[0]
data = []
row = []
col = []
for i, col_name in enumerate(df.columns):
if isinstance(df[col_name], pd.SparseSeries):
column_index = df[col_name].sp_index
if isinstance(column_index, BlockIndex):
column_index = column_index.to_int_index()
ix = column_index.indices
data.append(df[col_name].sp_values)
row.append(ix)
col.append(len(df[col_name].sp_values) * [i])
else:
data.append(df[col_name].values)
row.append(np.array(range(0, num_rows)))
col.append(np.array(num_rows * [i]))
data_f = np.concatenate(data)
row_f = np.concatenate(row)
col_f = np.concatenate(col)
arr = coo_matrix((data_f, (row_f, col_f)), df.shape, dtype=np.float64)
return arr.tocsr()
http://pandas-docs.github.io/pandas-docs-travis/sparse.html#interaction-with-scipy-sparse
================
编辑 - 这是来自多重索引的特殊函数,而不是数据框。请参阅其他答案以了解数据框的情况。请注意日期的差异。
============
从0.20.0版本开始,有一个和一个多索引。由于稀疏矩阵本质上是2d的,因此要求多索引对于(实际上)1d数据系列是有意义的。而数据帧可以表示表格或2d数组。MultiIndex
的SparseSeries
,而不适用于DataFrame。 - T.C. Proctorsparse.csr_matrix(df.to_coo())
是一行代码就能解决问题的方法。也许你应该编辑你的回答来明确这一点? - T.C. Proctor这是一种按列填充稀疏矩阵的解决方案(假设你至少可以将一列放入内存)。
import pandas as pd
import numpy as np
from scipy.sparse import lil_matrix
def sparse_df_to_array(df):
""" Convert sparse dataframe to sparse array csr_matrix used by
scikit learn. """
arr = lil_matrix(df.shape, dtype=np.float32)
for i, col in enumerate(df.columns):
ix = df[col] != 0
arr[np.where(ix), i] = df.ix[ix, col]
return arr.tocsr()
您应该能够以以下方式在 pandas [1] 中使用实验性的 .to_coo()
方法:
df, idx_rows, idx_cols = df.stack().to_sparse().to_coo()
df = df.tocsr()
这个方法不是使用 DataFrame
(行/列),而是使用带有行和列的 MultiIndex
的 Series
(这就是为什么需要 .stack()
方法)。这个带有 MultiIndex
的 Series
需要是一个 SparseSeries
,即使你的输入是一个 SparseDataFrame
,.stack()
返回的也是一个常规的 Series
。因此,在调用 .to_coo()
之前,需要使用 .to_sparse()
方法。
.stack()
返回的 Series
,即使它不是一个 SparseSeries
,也只包含非空元素,因此它不应该比稀疏版本占用更多的内存(至少在类型为 np.float
时使用 np.nan
)。
dataset = sparse.csr_matrix(df.to_coo())
- Simd