最新 'knn' 问题 - 第6页

关联标签

7得票2回答

由于Spark的mllib没有最近邻功能，因此我正在尝试使用Annoy进行近似最近邻。我尝试广播Annoy对象并将其传递给工作节点，但它没有按预期运行。下面是用于复现问题的代码（在PySpark中运行）。问题在于使用Annoy时与不使用Spark时看到的差异。 from annoy im...

15得票2回答

我正在使用KNN算法对手写数字进行分类。现在我还实现了PCA来减少维度。从256维降到了200维，但我只发现大约损失了0.10%的信息。我删掉了56个维度，难道损失不应该更大吗？只有当我降到5个维度时，才会出现约20%的信息损失。这种情况正常吗？

7得票1回答

我正在尝试使用不同的欧几里得距离度量实现，发现Scipy、纯Python和Java得出的结果不同。这是我使用Scipy计算距离的方法（=选项1）： distance = scipy.spatial.distance.euclidean(sample, training_vector) ...

13得票2回答

我正在使用sklearn实现的KNN算法。虽然我的输入数据有大约20个特征，但我认为其中一些特征比其他特征更重要。有没有一种方法可以在“训练”KNN学习器时为每个特征设置特征权重？为每个特征设置特征权重，以便在“训练”KNN学习器时使用。在预处理数据与否的情况下了解最佳权重值是什么。...

7得票3回答

我曾经使用KNN分类算法来训练我的模型，准确率约为97%。但后来我发现我忘记对数据进行标准化处理，于是我对数据进行了标准化处理并重新训练了模型，现在准确率只有87%。这是什么原因呢？我应该坚持使用未标准化的数据还是转向标准化版本呢？

9得票4回答

我在Matlab中使用kNN算法对包含150个数据点（50个Setosa，50个Versicolor，50个Virginica）的FisherIris数据进行分类，但是我在计算分类器的准确率和召回率时遇到了问题。下面是我的混淆矩阵： 50 0 0 0 48 2...

13得票3回答

我是一位新手，正在学习R语言，尝试摆脱SAS。由于R中提供了很多的包和资源，而且由于数据量太大导致我似乎不能把它们全部掌握，所以我在这里提出问题并感到有些挫败。我有一个本地MySQL数据库中名为SOURCE的表，其中包含200个预测特征和一个类变量。该表有300万条记录，大小为3GB。每个...

7得票4回答

我正在进行一个项目，将自动从输入图像中计算硬币的价值。到目前为止，我使用边缘检测和使用Hough变换对硬币进行了一些预处理，以分割硬币。我的问题是接下来该怎么做？我需要对基于一些先前存储的特征的分割图像进行一些模板匹配。我该如何做？我还阅读了关于K-最近邻的内容，我觉得我应该使用它。但...

11得票5回答

我有7个需要分类的类别和10个特征。在这种情况下，是否存在最优的k值，还是我必须运行KNN并在1到10（大约10个）的k值范围内确定最佳值，然后借助算法本身确定最佳值？

71得票12回答

一个3D点由(x,y,z)定义。任意两个点（X，Y，Z）和（x，y，z）之间的距离是d= Sqrt [（X-x）^2 +（Y-y）^2 +（Z-z）^2]。现在有一个包含一百万个条目的文件，每个条目都是空间中的一些点，没有特定顺序。给定任何点（a，b，c），找到离它最近的10个点。您将...