我想对半监督(受限)聚类进行一些实验,特别是提供实例级别的成对约束(必须连接或不能连接约束)作为背景知识。我想知道是否有任何良好的开源软件包来实现半监督聚类?我尝试查看了PyBrain、mlpy、scikit和orange等工具,但没有发现任何受限制的聚类算法。尤其是我对受约束的K-Means或受约束的基于密度的聚类算法(如C-DBSCAN)感兴趣。偏好使用Matlab、Python、Java或C++中的软件包,但不限于这些语言。
我想对半监督(受限)聚类进行一些实验,特别是提供实例级别的成对约束(必须连接或不能连接约束)作为背景知识。我想知道是否有任何良好的开源软件包来实现半监督聚类?我尝试查看了PyBrain、mlpy、scikit和orange等工具,但没有发现任何受限制的聚类算法。尤其是我对受约束的K-Means或受约束的基于密度的聚类算法(如C-DBSCAN)感兴趣。偏好使用Matlab、Python、Java或C++中的软件包,但不限于这些语言。
R软件包 conclust 实现了许多算法:
该包中有4个主要函数:ckmeans()、lcvqe()、mpckm() 和 ccls()。它们接受无标签数据集和两个必需链接和不能链接的约束条件列表作为输入,并将聚类作为输出。
还有一个Python实现的COP-KMeans。
一种扩展了Weka(使用Java)的算法,实现了PKM、MKM和PKMKM
使用EM和约束条件的高斯混合模型(Matlab实现)
充分披露。我是k-means-constrained的作者。
这里有一个Python实现的K-Means聚类,您可以指定最小和最大的簇大小。它使用与scikit-learn相同的API,因此非常容易使用。它还基于快速的C++包,因此具有良好的性能。
你可以通过pip安装它:
pip install k-means-constrained
示例用法:
>>> from k_means_constrained import KMeansConstrained
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
>>> [4, 2], [4, 4], [4, 0]])
>>> clf = KMeansConstrained(
>>> n_clusters=2,
>>> size_min=2,
>>> size_max=5,
>>> random_state=0
>>> )
>>> clf.fit(X)
array([0, 0, 0, 1, 1, 1], dtype=int32)
>>> clf.cluster_centers_
array([[ 1., 2.],
[ 4., 2.]])
>>> clf.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)
Github半监督学习与Sklearn API具有类似的用法。
pip install semisupervised
步骤1:未标记的样本应标记为-1。
步骤2:model.fit(X,y)
步骤3:model.predict(X_test)
示例:
from semisupervised.TSVM import S3VM
model = S3VM()
model.fit(np.vstack((label_X_train, unlabel_X_train)), np.append(label_y_train, unlabel_y))
# predict
predict = model.predict(X_test)
acc = metrics.accuracy_score(y_test, predict)
# metric
print("accuracy", acc)
看看这个 Python 包 active-semi-supervised-clustering
Github https://github.com/datamole-ai/active-semi-supervised-clustering