8得票3回答
使用Matlab 2013a进行归一化割的实现

我正在使用来自http://www.cis.upenn.edu/~jshi/software/Ncut_9.zip的归一化割包(在Windows 7上)。 这在Matlab2010a中可以正常工作。 但是,我已经升级到Matlab2013a(32位学生版本),现在出现以下错误: Error...

13得票3回答
新闻聚类

谷歌新闻和Techmeme如何对相似的新闻进行聚类?它们使用了哪些知名算法来实现这一点? 感谢您的帮助。 提前感谢您。

15得票3回答
如何使用自然语言处理将非结构化文本内容分成不同的段落?

以下未结构化文本涵盖三个明显主题:史泰龙、费城和美国革命。但您会使用哪种算法或技术将此内容分成不同的段落? 分类器在这种情况下不起作用。我还尝试使用Jaccard相似性分析器来查找连续句子之间的距离,并尝试将连续句子分组为一个段落,如果它们之间的距离小于给定值。是否有更好的方法? 这是我的...

12得票4回答
Python有模糊C均值算法吗?

我有一些在3维空间中的点,希望对它们进行聚类。我知道Python模块"cluster",但它只有K-Means算法。你知道有哪个模块包含FCM(Fuzzy C-Means)吗? (如果您知道其他与聚类相关的Python模块,可以将它们命名为奖励。但重要问题是关于Python中FCM算法的一个...

99得票7回答
无监督聚类及未知簇数

我有一组大量的三维向量。 我需要根据欧几里得距离将它们聚类,使得任何特定簇中的所有向量彼此之间的欧几里德距离小于阈值“T”。 我不知道存在多少个簇。最后可能存在单独的向量,因为它与空间中的任何向量的欧几里德距离都不小于“T”,而不属于任何簇。 应该使用哪些现有算法/方法?

8得票3回答
如何在核密度估计中找到局部极大值?

我正在尝试使用核密度估计器(KDE)制作一个过滤器(用于去除离群值和噪声)。我在我的三维(d=3)数据点中应用了KDE,并得到了概率密度函数(PDF) f(x)。现在,正如我们所知道的那样,密度估计f(x)的局部极大值定义了数据点簇的中心。因此,我的想法是定义适当的f(x),以确定这些簇。 ...

49得票8回答
Python k-means算法

我正在寻找使用 Python 实现 k-means 算法的示例,以对我的坐标数据库进行聚类和缓存。

10得票2回答
我们应该使用k-means++替代k-means吗?

k-means++算法在以下两个方面能够帮助原始的k-means算法: 原始的k-means算法在输入数据规模上存在超多项式的最坏运行时间,而k-means++声称其为O(log k)。 相对于最优聚类,找到的近似结果可能会导致目标函数表现不太理想。 但是,k-means++有什么缺点...

7得票1回答
在Hadoop集群上部署Mahout

我希望在一个由5台机器组成的Hadoop集群中运行Mahout的K-Means示例。为了使K-Means以分布式方式执行,我需要在所有节点上保留哪些Mahout jar文件?谢谢。 -Venkiram

46得票5回答
使用sklearn.AgglomerativeClustering绘制树状图谱

我尝试使用AgglomerativeClustering提供的children_属性构建一棵树状图,但是目前没有成功。我不能使用scipy.cluster,因为scipy中提供的凝聚聚类缺少对我来说很重要的一些选项(如指定聚类数量的选项)。如果有任何建议,我会非常感激。 import s...