在机器学习中使用反馈还是强化学习?

16

我正在尝试解决一些分类问题。看起来许多经典方法都遵循相似的范式,即使用某个训练集训练模型,然后用它来预测新实例的类标签。

我想知道是否有可能将某种反馈机制引入到这个范式中。在控制理论中,引入反馈回路是提高系统性能的有效方法。

目前我脑海中的一个直接方法是,首先我们从一组初始实例开始,并对其进行训练。然后每次模型做出错误预测时,我们将错误实例添加到训练集中。这与盲目扩大训练集不同,因为它更具有针对性。可以将其视为控制理论语言中的某种负反馈。

是否有任何关于反馈方法的研究正在进行?有没有人能够提供一些提示?


1
查找提升,这基本上就是您所描述的内容。 - Sean Owen
2
是否应该迁移到http://stats.stackexchange.com/? - sashkello
smwikipedia:我遇到了完全相同的问题。https://dev59.com/ZFoV5IYBdhLWcg3wkvl1。你想分享一下你的发现吗? - Anuj Gupta
@AnujGupta 我的问题受到控制理论中的“负反馈理论”的启发。这个问题已经有一段时间了,但由于项目转移,我没有深入研究它。我建议你阅读下面的回复,特别是我授予赏金的那个回复。很抱歉我不能为你提供更多帮助。 - smwikipedia
3个回答

10

有两个研究领域值得关注。

第一个是强化学习。这是一种在线学习范式,允许您在观察结果的同时获得反馈并更新策略(在本例中是分类器)。

第二个是主动学习,其中分类器可以从未分类示例的池中选择示例进行标记。关键在于分类器选择最能提高其准确性的示例进行标记,在当前分类器假设下选择困难的示例。


1

在我所从事的所有机器学习项目中,我都使用了这种反馈。它可以使训练所需的数据量更少(因此训练更快),而不是随机选择数据。模型的准确性也比使用随机选择的训练数据更快地提高。我正在处理图像处理(计算机视觉)数据,因此我还进行了另一种类型的选择,即添加聚类的错误数据(而不是每个单独的错误数据)。这是因为我认为总会有一些失败,所以我对正数据的定义是当它们在图像的同一区域聚集时。


我认为这种方法并不适用于所有的机器学习方法。训练失败数据点可以使其更好的事实并不明显(可能是因为它开始在集合之外的所有点上失败)。你的经验只是一个数据点,请引用一些学术研究参考来支持它。同时请说明你使用了哪些确切的方法,因为行为可能会有惊人的不同。否则,根据我的经验,我发现这种方法不如成功的概率大,但我只是另一个数据点... - sashkello
1
如果每个SO上的答案都必须由学术研究参考支持,那么只会有少数被接受的答案。我将这种技术应用于OCR、图像相似度和行人检测。我使用了GentleBoost。在处理图像时,负样本的数量几乎是无限的,而正样本的数量相当有限,因此使用从无限可能性中随机选择的数据是低效的。训练时间会更长,准确性也会降低。 - rold2007
并非 Stack Overflow 上的每个回答都需要有支持参考。但是这应该有。否则,它只是一个人的观点而已。因此,在你的回答中,如果你使用了某种技术来完成三个项目,那就请说明清楚,并指出它确切解决了哪些问题。“我在所有的机器学习项目中都使用了这种技术”这样的泛泛之言是无意义的。如果你只用了三次,那么这点数据对于如此大的断言来说太少了。我曾经做过20多个类似的项目,但我也不知道答案是什么,因为对我来说,情况总是不同的。当然,我可能犯了一些错误,这更是你明确指出你所做的事情的原因,从而使答案变得有用。 - sashkello
此外,“反馈方法是否有研究正在进行?”这个问题已经被提出,因此原帖作者期望在这个话题上得到一些文献参考。请提及这种方法的名称,给出一些进一步阅读的链接等。目前这个回答相当于“是的,它帮助过我几次”,更像是一条评论。 - sashkello

1
我之前看过这篇论文,它似乎是你正在寻找的内容。
他们基本上将分类问题建模为马尔可夫决策过程,并使用ACLA算法进行求解。这篇论文比我在此处写的要详细得多,但最终他们得到的结果优于多层感知器,因此这看起来是一种相当有效的方法。

看起来论文的链接已经失效了。您能否提供一个可用的链接或者在文本中提供一份引用作为替代呢?而且,搜索DeepDyve的ACLA链接也没有任何有用的结果。请您也查看一下这个问题。谢谢。 - user1953384
链接已经失效,引用始终更好或不可变。 - Shawn Cicoria

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接