Python中的K最近邻算法

Question

Python中的K最近邻算法

3

我有一组数据，包含单维度和类别标签。我想在这组数据上运行KNN算法。

我的数据长这个样子：

feature       Label
0.70436073      1
0.91564351      1
0.9931506       1
2.26418779      0

我做了以下操作，但出现了错误。从错误信息中我理解到train的数据类型无法识别，但我不知道如何修复它。请帮忙。

>>> train = [ 0.70436073,  0.91564351,  0.9931506,   2.26418779]
>>> train
[0.70436073, 0.91564351, 0.9931506, 2.26418779]
>>> label = ['1','1','1','0']
>>> from sklearn.neighbors import KNeighborsClassifier
>>> knn = KNeighborsClassifier()
>>> knn.fit(train, label)

Traceback (most recent call last):
  File "<pyshell#26>", line 1, in <module>
    knn.fit(train, label)
  File "C:\Python27\lib\site-packages\sklearn\neighbors\base.py", line 586, in fit
    return self._fit(X)
  File "C:\Python27\lib\site-packages\sklearn\neighbors\base.py", line 126, in _fit
    raise ValueError("data type not understood")
ValueError: data type not understood

- user1946217

2个回答

1

首先，您需要使用np.array将列表转换为数组。然后，由于您的数据只有一个特征，需要对数组进行重塑。请按照以下代码操作：

import numpy as np
train = np.array([[ 0.70436073,  0.91564351,  0.9931506,   2.26418779]])
train_1 = train.reshape(-1, 1)
label = np.array([['1','1','1','0']])
label_1 = label.reshape(-1,1)
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(train_1, label_1)

- Omid Enjile

根据Python PEP 8规范...将导入语句放在脚本顶部。下次编写或发布代码时请记住这一点。或者，您可以将导入语句包含在def（顶部）中。 - ZF007

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- boxed · Accepted Answer

错误信息不太友好，你应该给那些人发邮件让他们修复它，但是无论如何......在http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier上的示例非常清楚：fit（）的第一个参数是列表的列表，而不是数字列表。此外，第二个参数必须是“整数值数组”，但您编写了一个字符串数组。请注意保留HTML标记。