在机器学习中使用反馈还是强化学习？

Question

在机器学习中使用反馈还是强化学习？

machine-learningdata-mining

16

我正在尝试解决一些分类问题。看起来许多经典方法都遵循相似的范式，即使用某个训练集训练模型，然后用它来预测新实例的类标签。

我想知道是否有可能将某种反馈机制引入到这个范式中。在控制理论中，引入反馈回路是提高系统性能的有效方法。

目前我脑海中的一个直接方法是，首先我们从一组初始实例开始，并对其进行训练。然后每次模型做出错误预测时，我们将错误实例添加到训练集中。这与盲目扩大训练集不同，因为它更具有针对性。可以将其视为控制理论语言中的某种负反馈。

是否有任何关于反馈方法的研究正在进行？有没有人能够提供一些提示？

- smwikipedia

1

查找提升，这基本上就是您所描述的内容。 - Sean Owen

2

是否应该迁移到http://stats.stackexchange.com/? - sashkello

smwikipedia：我遇到了完全相同的问题。https://dev59.com/ZFoV5IYBdhLWcg3wkvl1。你想分享一下你的发现吗？ - Anuj Gupta

@AnujGupta 我的问题受到控制理论中的“负反馈理论”的启发。这个问题已经有一段时间了，但由于项目转移，我没有深入研究它。我建议你阅读下面的回复，特别是我授予赏金的那个回复。很抱歉我不能为你提供更多帮助。 - smwikipedia

3个回答

1

在我所从事的所有机器学习项目中，我都使用了这种反馈。它可以使训练所需的数据量更少（因此训练更快），而不是随机选择数据。模型的准确性也比使用随机选择的训练数据更快地提高。我正在处理图像处理（计算机视觉）数据，因此我还进行了另一种类型的选择，即添加聚类的错误数据（而不是每个单独的错误数据）。这是因为我认为总会有一些失败，所以我对正数据的定义是当它们在图像的同一区域聚集时。

- rold2007

我认为这种方法并不适用于所有的机器学习方法。训练失败数据点可以使其更好的事实并不明显（可能是因为它开始在集合之外的所有点上失败）。你的经验只是一个数据点，请引用一些学术研究参考来支持它。同时请说明你使用了哪些确切的方法，因为行为可能会有惊人的不同。否则，根据我的经验，我发现这种方法不如成功的概率大，但我只是另一个数据点... - sashkello

1

如果每个SO上的答案都必须由学术研究参考支持，那么只会有少数被接受的答案。我将这种技术应用于OCR、图像相似度和行人检测。我使用了GentleBoost。在处理图像时，负样本的数量几乎是无限的，而正样本的数量相当有限，因此使用从无限可能性中随机选择的数据是低效的。训练时间会更长，准确性也会降低。 - rold2007

并非 Stack Overflow 上的每个回答都需要有支持参考。但是这应该有。否则，它只是一个人的观点而已。因此，在你的回答中，如果你使用了某种技术来完成三个项目，那就请说明清楚，并指出它确切解决了哪些问题。“我在所有的机器学习项目中都使用了这种技术”这样的泛泛之言是无意义的。如果你只用了三次，那么这点数据对于如此大的断言来说太少了。我曾经做过20多个类似的项目，但我也不知道答案是什么，因为对我来说，情况总是不同的。当然，我可能犯了一些错误，这更是你明确指出你所做的事情的原因，从而使答案变得有用。 - sashkello

此外，“反馈方法是否有研究正在进行？”这个问题已经被提出，因此原帖作者期望在这个话题上得到一些文献参考。请提及这种方法的名称，给出一些进一步阅读的链接等。目前这个回答相当于“是的，它帮助过我几次”，更像是一条评论。 - sashkello

1

我之前看过这篇论文，它似乎是你正在寻找的内容。

他们基本上将分类问题建模为马尔可夫决策过程，并使用ACLA算法进行求解。这篇论文比我在此处写的要详细得多，但最终他们得到的结果优于多层感知器，因此这看起来是一种相当有效的方法。

- Charles Menguy

看起来论文的链接已经失效了。您能否提供一个可用的链接或者在文本中提供一份引用作为替代呢？而且，搜索DeepDyve的ACLA链接也没有任何有用的结果。请您也查看一下这个问题。谢谢。 - user1953384

链接已经失效，引用始终更好或不可变。 - Shawn Cicoria

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ben Allison · Accepted Answer

有两个研究领域值得关注。

第一个是强化学习。这是一种在线学习范式，允许您在观察结果的同时获得反馈并更新策略（在本例中是分类器）。

第二个是主动学习，其中分类器可以从未分类示例的池中选择示例进行标记。关键在于分类器选择最能提高其准确性的示例进行标记，在当前分类器假设下选择困难的示例。