机器学习模型错误预测

3
我有一个由Create ML创建的机器学习分类器,该模型使用3400个样本进行了训练,并且整体表现非常精准。然而,该模型偶尔会做出错误的预测,我似乎无法想出如何将其添加到模型中,以便它不会对某些错误预测产生过高的信心。我应该如何使用这些被错误分类的新数据重新训练模型?是否应该创建一个新的分类文件夹并将这些错误分类添加到其中,还是在训练模型时有一种方法可以将其传递为非分类类型,以便它可以尝试理解它们之间的区别?

你能提供更多的细节吗? - Sachin Yadav
我不确定我能提供什么更多的细节。但基本上,我的机器学习模型正在做出一个我不希望它做出的预测。我该如何重新训练模型,告诉它这个例子不是这种类型的分类? - Charlie
你在这里陈述了一个非常广泛的问题描述。当你说“它的准确性令人印象深刻”时,你是否也考虑了其他指标?比如精度、召回率、混淆矩阵?你的数据特征怎么样?你的数据是否存在类别不平衡的情况?如果你的数据中99.9%是类别0,只有0.1%是类别1,那么你的模型预测只有类别0,准确率达到99.9%并不奇怪。你实际上有多少个类别? - Tinu
当我说它的准确性令人印象深刻时,是因为我有一些代码也在尝试分类,而其中一些预测比代码更擅长发现小差异,这让我感到惊讶。最终,我想要弄清楚的是,我的MLModel做出了一个我不希望它作出的预测,而我指定的三个类别之一也不应该对其进行分类。我该如何训练模型以识别该预测是错误的,并且不应被归类为我的三个类别之一。Type 2 99%Right Type 2 94%Wrong - Charlie
更好的提问地点:https://stats.stackexchange.com/questions - PV8
显示剩余2条评论
1个回答

3
免责声明:我目前尚未与createML合作。从您提供的问题中,我了解到您通过文件夹结构提供训练数据,然后通过按下按钮进行训练和评估。如果我有任何不良假设,请纠正我。
很高兴知道您使用的是什么类型的模型/架构以及您的训练样本是什么样子。
在我看来,您的问题似乎是这些预测较差的样本在整个数据集中没有得到充分体现。在此处您可以尝试以下几种技巧:
1. 只需对这些样本进行重复复制(在训练样本文件夹内进行复制粘贴),以便在这些特定样本上使错误反馈加倍。
2. 更复杂的方法是对这些样本应用数据增强策略,然后将增强样本添加到您的训练数据集中。
根据您的样本类型,Python提供了数据增强包,并且它们非常易于使用。

你的假设是正确的。我有两个文件夹,一个是数据文件夹,里面有三个文件夹,分别标记为一、二和三。这些文件夹中包含了我收集的数据集的CSV文件,其中包含了加速度计和陀螺仪数据点。第二个文件夹是测试数据,占我的数据集的20%,也有三个文件夹,分别是一、二和三,每个文件夹中都包含CSV文件。CSVFileEample 从谷歌上搜索来看,数据增强似乎是正确的,但如何在CSV文件上进行呢? - Charlie
总的来说,似乎我应该添加一个名为“four”的新分类类型文件夹,并将所有这些不想要的分类(如一、二或三)放在其中,然后进行数据增强,使20变成700? - Charlie
如果你现在有四个类,是的,你应该添加第四个文件夹。不过,从20个样本增加到700个可能有些困难。 - mrk
回答数据增强问题的方法之一是将CSV文件中的条目加载到NumPy数组中,然后在条目上添加一些增强(噪声、移位等),最后再保存。但要注意小心,不要干扰数据以至于它脱离实际数据分布范围。 - mrk
对不起,我周末离开了一段时间。最后一个问题,当您说噪音时,是否仅意味着随机添加或减去一些小数值? - Charlie
是的,那将是最简单的选择。这些值也可以遵循一个分布,在数据增强期间进行采样。 - mrk

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接