我有一个问题,我可能拥有大量的特征。基本上是一堆数据点(让我们说它有数百万个特征)。我不知道哪些数据点对于给定结果是有用的,哪些是无关紧要的(我猜1%是相关的,99%是无关紧要的)。
我已经有了数据点和最终结果(二进制结果)。我有兴趣减少特征集,以便我可以确定最有用的数据点集来收集以训练未来的分类算法。
我的当前数据集非常庞大,我不能像识别相关特征,减少收集的数据点数量和增加训练样本数量时那样生成尽可能多的训练示例。我预计,在保持相关数据点的情况下,给出更少的特征数据点会得到更好的分类器。
应该首先关注哪些机器学习算法来识别与结果相关的特征?
从我阅读的一些资料中,似乎SVM提供每个特征的权重,我可以使用这些权重来确定最高评分的特征。有人能确认这一点吗?扩展解释?还是我应该考虑其他方面?
我已经有了数据点和最终结果(二进制结果)。我有兴趣减少特征集,以便我可以确定最有用的数据点集来收集以训练未来的分类算法。
我的当前数据集非常庞大,我不能像识别相关特征,减少收集的数据点数量和增加训练样本数量时那样生成尽可能多的训练示例。我预计,在保持相关数据点的情况下,给出更少的特征数据点会得到更好的分类器。
应该首先关注哪些机器学习算法来识别与结果相关的特征?
从我阅读的一些资料中,似乎SVM提供每个特征的权重,我可以使用这些权重来确定最高评分的特征。有人能确认这一点吗?扩展解释?还是我应该考虑其他方面?