scikit learn中kmeans实现中predict()方法的用途是什么？

Question

scikit learn中kmeans实现中predict()方法的用途是什么？

scikit-learnk-means

7

有人能解释一下scikit-learn中kmeans实现中predict()方法的用途吗？官方文档将其用途描述为：

预测每个样本在X中属于哪个最近的簇。

但是，我也可以通过在fit_transform()方法上训练模型来获取输入集X每个样本的簇编号/标签。那么predict()方法有什么用呢？如果是用来指出未知数据的最接近的簇，那么如果你执行SVD等降维度量，如何处理新的数据点呢？

这里有一个类似的问题，但我仍然不认为它真正有所帮助。

- Smeet Patel

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MB-F · Accepted Answer

predict()方法有什么用途？它是否应该指出未知数据的最接近聚类?

是的，正是如此。

那么如果您执行诸如SVD之类的降维措施，如何处理新数据点？

在将其传递给.predict()之前，对未知数据应用相同的降维方法。以下是典型的工作流程：

# prerequisites:
#    x_train: training data
#    x_test: "unseen" testing data
#    km: initialized `KMeans()` instance
#    dr: initialized dimensionality reduction instance (such as `TruncatedSVD()`)    

# fitting
x_dr = dr.fit_transform(x_train)
y = km.fit_predict(x_dr)  

# ...

# working with unseen data (models have been fitted before)
x_dr = dr.transform(x_test)
y = km.predict(x_dr)

# ...

实际上，像fit_transform和fit_predict这样的方法是为了方便而存在的。y = km.fit_predict(x)等同于y = km.fit(x).predict(x)。

如果我们将拟合部分写成以下形式，我认为更容易理解：

# fitting
dr.fit(x_train)
x_dr = dr.transform(x_train)

km.fit(x_dr)
y = km.predict(x_dr)

除了调用.fit()之外，这些模型在拟合和处理未见数据时使用的方法相同。

总结：

- .fit()的目的是使用数据来训练模型。 - .predict()或.transform()的目的是将训练好的模型应用于数据。 - 如果您想在训练期间对模型进行拟合并将其应用于相同的数据，则可以使用.fit_predict()或.fit_transform()以方便操作。 - 在链接多个模型（例如降维和聚类）时，请在拟合和测试期间按照相同的顺序应用它们。