分类算法的最新技术水平

6

我们知道有很多分类器,最近我听说,有人说adaboost就像是“开箱即用”的一个。

  • 是否有更好的算法(带有投票想法)?
  • 分类器的现状如何?你有例子吗?
5个回答

6

首先,adaboost是一种元算法,它与您喜欢的分类器一起使用(在其上方)。其次,在一个问题域中表现良好的分类器通常在另一个问题域中表现不佳。请参见No Free Lunch维基百科页面。因此,对于您的问题不会有一个答案。但了解人们实际使用的内容可能很有趣。


3
Weka和Mahout不是算法,它们是机器学习库。它们包含了广泛的算法实现。因此,您最好选择一个库并尝试几种不同的算法,以确定哪种算法最适合您的特定问题(其中“最适合”的定义将取决于训练成本、分类成本和分类准确性)。
如果是我,我会从朴素贝叶斯、k近邻和支持向量机开始。它们代表了非常不同的权衡的已经被很好理解的方法。朴素贝叶斯便宜但不是特别准确。K-NN在训练期间很便宜,但在分类期间可能很昂贵,并且虽然通常非常准确,但容易过度训练。SVM的训练成本很高,有很多元参数需要调整,但应用起来很便宜,并且通常至少与K-NN一样准确。
如果您告诉我们更多关于您要解决的问题的信息,我们可能能够给出更专业的建议。但是,如果您只是寻找唯一的真正算法,则不存在这样的算法——无免费午餐定理保证这一点。

2

2

Weka是一个非常流行和稳定的机器学习库。它已经存在了相当长的时间,并且是用Java编写的。


最近我看到一位医生在使用这个,所以我不得不承认你回答得非常快。 - edgarmtze

1
Hastie等人(2013年,《统计学习的要素》)得出结论,梯度提升机是最好的“即插即用”方法,无论您面对什么问题。 定义(见第352页): “即插即用”方法是指可以直接应用于数据而不需要进行大量耗时的数据预处理或精心调整学习过程的方法。
另外还有一个较早的含义: 事实上,Breiman(1996年NIPS研讨会)将带有树的AdaBoost称为“世界上最好的即插即用分类器”(也可参见Breiman(1998))。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接