13得票3回答
如何在R中对大型数据库进行抽样,并实现K-means和K-nn算法?

我是一位新手,正在学习R语言,尝试摆脱SAS。由于R中提供了很多的包和资源,而且由于数据量太大导致我似乎不能把它们全部掌握,所以我在这里提出问题并感到有些挫败。 我有一个本地MySQL数据库中名为SOURCE的表,其中包含200个预测特征和一个类变量。该表有300万条记录,大小为3GB。每个...

13得票3回答
如何遍历KD树以找到k个最近邻居?

这个问题涉及到KDTrees的KNN搜索实现。遍历KDTree以找到最佳匹配(最近邻)很简单,类似于修改后的二分搜索。 如何修改遍历以全面且高效地找到K个最佳匹配(KNN)? 澄清编辑: 在找到输入查询I的最近节点M后,遍历算法如何继续找到剩余的K-1个最接近的查询匹配?是否有一种遍历模式...

12得票4回答
在KD树中寻找所有节点的K近邻的高效方法

我目前正在尝试找到一个平衡的KD树的所有节点的K个最近邻居(其中K=2)。我的实现是代码维基百科文章的变体,可以相当快地找到任何节点的KNN,时间复杂度为O(log N)。问题在于我需要找到每个节点的KNN,如果我迭代每个节点并执行搜索,则时间复杂度达到O(N log N)左右。是否有更有效的...

11得票2回答
如何使用OpenCV中的flann::Index?

我在使用OpenCV的flann::Index时遇到了一些问题。 我正在创建一个索引。 Mat samples = Mat::zeros(vfv_net_quie.size(),24,CV_32F); for (int i =0; i < vfv_net_quie...

11得票1回答
增加n_jobs对GridSearchCV没有影响。

我设置了一个简单的实验,以检查在运行带有KNeighborsClassifier的GridSearchCV时,多核CPU的重要性。我得到的结果让我感到惊讶,我想知道我是否误解了多核的好处,或者我没有做好。 使用2-8个作业完成所需的时间没有任何区别。怎么会这样?我注意到了CPU性能选项卡上...

11得票3回答
使用最近邻算法进行图像模式识别

我想要能够识别图像中的模式(例如数字4),我一直在阅读不同的算法,我真的想使用最近邻算法,它看起来很简单,根据这个教程我也理解了: http://people.revoledu.com/kardi/tutorial/KNN/KNN_Numerical-example.html 问题是,虽然我知...

11得票4回答
KNN算法在训练阶段做什么?

与线性回归等其他算法不同,KNN 在训练阶段似乎不执行任何计算。例如,在线性回归的情况下,它会在训练阶段找到系数。但是 KNN 呢?

11得票5回答
k最近邻算法中的k值意义何在?

我有7个需要分类的类别和10个特征。在这种情况下,是否存在最优的k值,还是我必须运行KNN并在1到10(大约10个)的k值范围内确定最佳值,然后借助算法本身确定最佳值?

11得票3回答
如何在Python中使用kNN和动态时间规整(Dynamic Time Warping)

我有一个带有两个标签(0和1)的时间序列数据集。我正在使用动态时间规整(DTW)作为相似性度量,使用k近邻(kNN)进行分类,这在这两篇精彩的博客文章中有所描述: https://nbviewer.jupyter.org/github/markdregan/K-Nearest-Neighb...

10得票3回答
如何在Python中测量KNN分类器的准确性

我已经使用了knn对我的数据集进行分类。但是我不知道如何衡量经过训练的分类器的准确性。scikit是否有任何内置函数来检查knn分类器的准确性? from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassi...