我有一个来自SVM-Light格式的稀疏TF-IDF特征矩阵创建的Scipy稀疏CSR矩阵。 特征数量非常庞大且稀疏,因此必须使用SparseTensor,否则速度太慢。
例如,特征数为5,样本文件可能如下所示:
0 4:1
1 1:3 3:4
0 5:1
0 2:1
解析后,训练集如下:
trainX = <scipy CSR matrix>
trainY = np.array( [0,1,00] )
我有两个重要问题:
1)如何高效地将其转换为SparseTensor(sp_ids,sp_weights),以便使用查找(lookup)进行快速乘法(W.X):https://www.tensorflow.org/versions/master/api_docs/python/nn.html#embedding_lookup_sparse
2)如何在每个时期随机化数据集并重新计算sp_ids,sp_weights,以便可以为小批量梯度下降提供(feed_dict)。
非常感谢在像逻辑回归这样的简单模型上提供示例代码。图形将如下所示:
# GRAPH
mul = tf.nn.embedding_lookup_sparse(W, X_sp_ids, X_sp_weights, combiner = "sum") # W.X
z = tf.add(mul, b) # W.X + b
cost_op = tf.reduce_sum(tf.nn.sigmoid_cross_entropy_with_logits(z, y_true)) # this already has built in sigmoid apply
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost_op) # construct optimizer
predict_op = tf.nn.sigmoid(z) # sig(W.X + b)
return tf.sparse.reorder(tf.SparseTensor(indices, coo.data, coo.shape))
这样做就可以了。 - M.Winkens