Python中使用sklearn计算轮廓系数

7
我在使用sklearn和python计算轮廓系数时遇到了问题。以下是我的代码:

from sklearn import datasets
from sklearn.metrics import *
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = col)
y = pd.DataFrame(iris.target,columns = ['cluster'])
s = silhouette_score(X, y, metric='euclidean',sample_size=int(50))

我收到了一个错误信息:
IndexError: indices are out-of-bounds

我希望使用sample_size参数,因为在处理非常大的数据集时,计算轮廓系数需要太长的时间。有人知道这个参数怎么用吗?

完整的回溯信息:

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-72-70ff40842503> in <module>()
      4 X = pd.DataFrame(iris.data, columns = col)
      5 y = pd.DataFrame(iris.target,columns = ['cluster'])
----> 6 s = silhouette_score(X, y, metric='euclidean',sample_size=50)

/usr/local/lib/python2.7/dist-packages/sklearn/metrics/cluster/unsupervised.pyc in silhouette_score(X, labels, metric, sample_size, random_state, **kwds)
     81             X, labels = X[indices].T[indices].T, labels[indices]
     82         else:
---> 83             X, labels = X[indices], labels[indices]
     84     return np.mean(silhouette_samples(X, labels, metric=metric, **kwds))
     85 

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in __getitem__(self, key)
   1993         if isinstance(key, (np.ndarray, list)):
   1994             # either boolean or fancy integer index
-> 1995             return self._getitem_array(key)
   1996         elif isinstance(key, DataFrame):
   1997             return self._getitem_frame(key)

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in _getitem_array(self, key)
   2030         else:
   2031             indexer = self.ix._convert_to_indexer(key, axis=1)
-> 2032             return self.take(indexer, axis=1, convert=True)
   2033 
   2034     def _getitem_multilevel(self, key):

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in take(self, indices, axis, convert)
   2981         if convert:
   2982             axis = self._get_axis_number(axis)
-> 2983             indices = _maybe_convert_indices(indices, len(self._get_axis(axis)))
   2984 
   2985         if self._is_mixed_type:

/usr/local/lib/python2.7/dist-packages/pandas/core/indexing.pyc in _maybe_convert_indices(indices, n)
   1038     mask = (indices>=n) | (indices<0)
   1039     if mask.any():
-> 1040         raise IndexError("indices are out-of-bounds")
   1041     return indices
   1042 

IndexError: indices are out-of-bounds

请粘贴更多的回溯信息。您不需要使用int将50包装起来。 - William Denman
我编辑了以获取回溯。50之前是一个变量。我将其更改为确保我有一个固定值的错误。我忘记删除int。 - Scratch
1个回答

11

silhouette_score函数要求输入的是普通的numpy数组。为什么要把你的数组封装在数据框中呢?

>>> silhouette_score(iris.data, iris.target, sample_size=50)
0.52999903616584543

从回溯信息中,您可以观察到代码在第一轴上进行了花式索引(子采样)。默认情况下,对数据框进行索引将索引列而不是行,因此您所观察到的问题就出现了。


好的,谢谢。我以鸢尾花数据集为例,因为我实际上正在为我的项目工作的数据框架上。如果第一个条目是数据框架,第二个是数组,则Silhouette可以工作。我没有考虑到索引的潜在问题。 - Scratch
5
在将数据传递给silhouette_score函数之前,只需将您的数据帧转换为NumPy数组(例如使用data_frame.values)。 - ogrisel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接