7得票2回答
在Spark中广播烦扰对象(用于最近邻)?

由于Spark的mllib没有最近邻功能,因此我正在尝试使用Annoy进行近似最近邻。我尝试广播Annoy对象并将其传递给工作节点,但它没有按预期运行。 下面是用于复现问题的代码(在PySpark中运行)。问题在于使用Annoy时与不使用Spark时看到的差异。 from annoy im...

15得票2回答
PCA和KNN算法

我正在使用KNN算法对手写数字进行分类。现在我还实现了PCA来减少维度。从256维降到了200维,但我只发现大约损失了0.10%的信息。我删掉了56个维度,难道损失不应该更大吗?只有当我降到5个维度时,才会出现约20%的信息损失。这种情况正常吗?

7得票1回答
欧几里得距离,在Scipy、纯Python和Java之间产生的不同结果

我正在尝试使用不同的欧几里得距离度量实现,发现Scipy、纯Python和Java得出的结果不同。 这是我使用Scipy计算距离的方法(=选项1): distance = scipy.spatial.distance.euclidean(sample, training_vector) ...

13得票2回答
为KNN设置特征权重

我正在使用sklearn实现的KNN算法。虽然我的输入数据有大约20个特征,但我认为其中一些特征比其他特征更重要。有没有一种方法可以在“训练”KNN学习器时为每个特征设置特征权重? 为每个特征设置特征权重,以便在“训练”KNN学习器时使用。 在预处理数据与否的情况下了解最佳权重值是什么。...

7得票3回答
KNN中规范化的准确度差异

我曾经使用KNN分类算法来训练我的模型,准确率约为97%。但后来我发现我忘记对数据进行标准化处理,于是我对数据进行了标准化处理并重新训练了模型,现在准确率只有87%。这是什么原因呢?我应该坚持使用未标准化的数据还是转向标准化版本呢?

9得票4回答
有没有使用Matlab计算精确度和召回率的函数?

我在Matlab中使用kNN算法对包含150个数据点(50个Setosa,50个Versicolor,50个Virginica)的FisherIris数据进行分类,但是我在计算分类器的准确率和召回率时遇到了问题。下面是我的混淆矩阵: 50 0 0 0 48 2...

13得票3回答
如何在R中对大型数据库进行抽样,并实现K-means和K-nn算法?

我是一位新手,正在学习R语言,尝试摆脱SAS。由于R中提供了很多的包和资源,而且由于数据量太大导致我似乎不能把它们全部掌握,所以我在这里提出问题并感到有些挫败。 我有一个本地MySQL数据库中名为SOURCE的表,其中包含200个预测特征和一个类变量。该表有300万条记录,大小为3GB。每个...

7得票4回答
使用OpenCV进行硬币模板匹配

我正在进行一个项目,将自动从输入图像中计算硬币的价值。到目前为止,我使用边缘检测和使用Hough变换对硬币进行了一些预处理,以分割硬币。 我的问题是接下来该怎么做?我需要对基于一些先前存储的特征的分割图像进行一些模板匹配。我该如何做? 我还阅读了关于K-最近邻的内容,我觉得我应该使用它。但...

11得票5回答
k最近邻算法中的k值意义何在?

我有7个需要分类的类别和10个特征。在这种情况下,是否存在最优的k值,还是我必须运行KNN并在1到10(大约10个)的k值范围内确定最佳值,然后借助算法本身确定最佳值?

71得票12回答
数百万个三维点:如何找到离给定点最近的十个点?

一个3D点由(x,y,z)定义。 任意两个点(X,Y,Z)和(x,y,z)之间的距离是d= Sqrt [(X-x)^2 +(Y-y)^2 +(Z-z)^2]。 现在有一个包含一百万个条目的文件,每个条目都是空间中的一些点,没有特定顺序。 给定任何点(a,b,c),找到离它最近的10个点。 您将...