经过运行许多不同的无监督聚类算法,我发现了一种DBSCAN的配置,可以给出连贯的结果。
我想推断出
DBSCAN
根据我的测试数据创建的模型,以将其应用于其他数据集,但是不重新运行算法。我不能在整个数据集上运行算法,因为它会耗尽内存,并且模型在不同时间的数据动态性可能对我没有意义。使用sklearn,我发现其他聚类算法(如MiniBatchKMeans)具有
predict
方法,但DBSCAN
没有。我理解对于
MiniBatchKMeans
,质心唯一地定义了模型。但是对于DBSCAN
,这样的东西可能不存在。我的问题是:如何正确地推广DBSCAN模型?我应该使用DBSCAN在测试数据集上的输出来训练监督学习算法吗?还是有一些内在于DBSCAN模型的东西可以用来对新数据进行分类,而无需重新运行算法?