7得票2回答
从k-mean聚类中删除异常值

我有许多包含10个XY坐标的小数据集。我正在使用Matlab(R2012a)和k-means来获取质心。在某些聚类中(如下图所示),由于我的数据集太小,一个离群值会破坏我的质心值。有没有一种简单的方法来排除这些点?据说Matlab有一个“排除离群值”的函数,但我在工具菜单中找不到它。谢谢你的帮...

9得票1回答
Scikit-learn亲和力传播算法记忆错误

我想我已经知道我的答案了,但是有很多比我更聪明和经验丰富的人,所以我想问一下。 当我尝试将我的hash_matrix (<class 'scipy.sparse.csr.csr_matrix'>)适配到AffinityPropagation时,我遇到了MemoryError。它仅...

7得票5回答
如何通过接近度将对象分组到一个集合中?

我有一个包含数千个地址的集合。如果我可以获取每个地址的经纬度,如何按照接近程度将该集合分成组? 此外,我可能希望根据不同规则重新尝试“聚类”: N组 每组M个地址 组内任何地址之间的最大距离

8得票1回答
clusplot - 显示变量

我想在 clusplot 中增加箭头来表示使用pca的变量。 我不确定是否已实现此方法(在文档中找不到任何信息)。 我已经生成了一个类似于这样的 clusplot: 使用 princomp 包,我可以单独绘制观测值在类似的表示空间中,将变量(列)表示为箭头: 两者同时进行,显示聚类和P...

7得票4回答
稀疏二元向量数据集的聚类

如果我有一个稀疏数据集,其中每个数据由一个1000元素的向量描述,该向量的每个元素可以是0或1(有很多0和一些1),您知道任何距离函数可以帮助我对它们进行聚类吗?在这种情况下,像欧几里得距离这样的东西是否方便?我想知道是否有一个简单方便的距离度量可以用于这种情况,以尝试我的数据。 谢谢

7得票1回答
为什么Scikit-learn中的k-means有一个predict函数,而DBSCAN/agglomerative没有?

Scikit-learn中的K-means实现具有一个可应用于未知数据的`predict()`函数,而DBSCAN和Agglomerative则没有`predict()`函数。所有三种算法都有`fit_predict()`,它用于拟合模型然后进行预测。但是,对于其他算法来说,不像k-means...

33得票6回答
使用哪个机器学习库

我正在寻找一个库,最好具备以下功能: 在多维数据上实现分层聚类(理想情况下是在相似性或距离矩阵上) 实现支持向量机 使用C++编写 有一定的文档说明(这似乎是最难的) 我希望这个库使用C++编写,因为我最熟悉这种语言,但如果该库值得,我也会使用其他任何语言。我已经搜索到一些库,但我确实...

36得票4回答
如何进行聚类分析(特别是字符串聚类)?

我听说过聚类可以将相似的数据分组。我想了解它在字符串特定案例中是如何工作的。 我有一个包含超过100,000个不同单词的表格。 我希望能够识别出具有差异的相同单词(例如:house, house!!, hooouse, HoUse, @house, "house"等)。 为了识别相似性并...

49得票9回答
Scikit-learn:使用DBSCAN预测新数据点

我正在使用Scikit-Learn(Python 2.7)中的DBSCAN对一些数据进行聚类:from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) 然而,我发现除了 "fit_predi...

8得票2回答
OpenCV欧几里得聚类与findContours的比较

我有以下图像掩模: 我想应用类似于cv::findContours的算法,但该算法仅将同一组中相连的点连接在一起。 我想通过某些容差来实现这一点,即我想在给定半径容差内添加彼此附近的像素:这类似于欧几里得距离分层聚类。 OpenCV中是否已经实现了这个功能? 或者是否有快速的方法来实现这一点...