7得票1回答
无法运行Scipy层次聚类算法

我写了一个简单的脚本,旨在对一个简单的测试数据集进行分层聚类。 我发现函数fclusterdata可以将我的数据聚类成两个簇。它需要两个必填参数:数据集和阈值。 问题是,我找不到一个能产生预期两个簇的阈值。 如果有人能告诉我我做错了什么,我会很高兴。如果有人能指出其他更适合我的聚类方法(...

7得票2回答
HDBSCAN Python如何选择聚类数量?

可以在Python的HDBSCAN算法中选择聚类数吗?或者唯一的方法是调整输入参数,如alpha、min_cluster_size? 谢谢。 更新: 以下是使用fcluster和HDBSCAN的代码。 import hdbscan from scipy.cluster.hierarchy...

12得票2回答
R中是否有dist函数的稀疏支持?

有没有人听说过任何与 R 中的 dist {stats} 函数相同的包或功能,该函数创建了使用指定距离度量计算数据矩阵行之间距离的距离矩阵, 但是以稀疏矩阵作为输入? 我的数据框(名为 dataCluster)的维度为:7000 X 10000,几乎99%是稀疏的。在常规形式下,如...

14得票1回答
在Python中使用igraph进行社区检测,并将每个节点的社区编号写入CSV。

我有一个网络,想使用igraph中的edge_betweenness社区检测算法进行分析。我熟悉NetworkX,但尝试学习igraph,因为它比NetworkX具有更多的社区检测方法。 我的最终目标是运行edge_betweenness社区检测,并找到最优数量的社区,并编写一个CSV文件,其...

24得票3回答
基于距离矩阵的单词聚类

我的目标是基于一组文本文档,根据单词之间的相似程度进行聚类。我已经计算了每对单词之间的杰卡德相似度。换句话说,我拥有一个稀疏距离矩阵可供使用。请问是否有人能够指引我使用哪种聚类算法(以及其在Python中的库),该算法可以将距离矩阵作为输入?我也不知道预先确定聚类数量。我只想将这些单词进行聚类...

7得票1回答
如何在R中使用Gower距离进行变量加权

我是新手,正在处理一个包含名义、序数和度量数据的数据集。因此,我使用戈尔距离来计算它们之间的距离。在下一步中,我将使用hclust(x, method="complete")基于这个距离创建聚类。 现在,我想知道如何在戈尔距离中对不同的变量进行加权。文档说明: daisy(x, metri...

28得票1回答
如何给sns.clustermap提供一个预先计算好的距离矩阵?

通常情况下,当我制作树状图和热力图时,我会使用距离矩阵并进行一系列的SciPy操作。我想尝试使用Seaborn,但是Seaborn希望我的数据呈现为矩形形式(行=样本,列=属性,而不是距离矩阵)? 我想要使用seaborn作为后端来计算我的树状图,并将其附加到我的热力图上。这可能吗?如果不行...

8得票1回答
Python - 计算word2vec向量的层次聚类并将结果绘制为树状图

我已经使用我的领域文本语料库生成了一个100D的word2vec模型,合并了常见短语,例如(good bye => good_bye)。然后我提取了1000个所需单词的向量。 因此,我有了1000个numpy数组,如下所示: [[-0.050378,0.855622,1.107467...

16得票2回答
如何从SciPy的层次聚类中获取质心?

我正在使用SciPy的层次聚类方法对一个m x n特征矩阵进行聚类,但是在完成聚类后,我似乎无法弄清楚如何从结果聚类中获取质心。以下是我的代码: Y = distance.pdist(features) Z = hierarchy.linkage(Y, method = "average",...

20得票3回答
标签层次结构和处理方式

这是一个普遍适用于标记物品的真实问题(而且是针对所有标记物品的,包括 StackOverflow,这不是关于 StackOverflow 的问题)。 整个标记问题有助于将类似的项目分组在一起,无论它们是什么(笑话、博客文章、问题等)。然而,通常(但并非一定)有一些标记之间存在层次关系,也就是...