为什么Weka中的KNN实现运行更快？

Question

4

1) 我们知道KNN在训练阶段不执行任何计算，而是将所有计算推迟到分类阶段，因此我们称其为惰性学习器。它应该在分类中花费比训练更多的时间，但是我发现对于weka来说这个假设几乎相反。在weka中，KNN在训练时需要比测试更多的时间。

为什么在weka中KNN在分类方面表现得更快？这是为什么？是否也会导致计算错误？

2) 当我们说KNN中的特征加权可能会提高高维数据的性能时，我们指的是什么？我们是指特征选择和选择具有高信息增益的特征吗？

- Kashif Khan

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- George · Accepted Answer

问题1的回答：

我猜测Weka实现使用某种数据结构来高效地执行（近似）最近邻查询。

使用这样的数据结构，查询可以比以朴素方式执行时更加高效。

这样的数据结构示例包括KD树和SR树。

在训练阶段，需要创建数据结构，因此它将比分类花费更多的时间。

问题2的回答：

对于最相关的特征使用更高的权重，对不太相关的特征使用较低的权重，可能会提高预测性能。

另一种提高预测性能的方法是进行特征选择。使用互信息或其他一些单变量关联（例如连续变量的Pearson相关系数）是执行特征选择的最简单和最容易的方法。请注意，减少变量数量可以在计算时间方面提供显着的加速。

当然，您可以两者兼顾，即首先执行特征选择，然后对剩余特征使用权重。例如，您可以使用互信息来对剩余特征进行加权。对于文本分类，您还可以使用TF-IDF对特征进行加权。