12得票1回答
验证和测试准确度差异很大

我目前正在Kaggle数据集上工作。在使用神经网络模型对训练数据进行训练后,我在验证数据上进行了测试并获得了约0.49的准确率。 然而,同一模型在测试数据上只给出了0.05的准确率。 因此,可能发生这种情况的原因是什么,如何开始检查和纠正这些问题呢?

12得票1回答
我应该保留/删除代表不同对象的相同训练样例吗?

我已准备好一个数据集来识别某种类型的对象(大约有2240个负例和仅有90个正例)。然而,在为数据集中的每个对象计算了10个特征后,独特的训练实例数量分别降至约130个和30个。 由于相同的训练实例实际上代表不同的对象,我能否认为这种重复包含相关信息(例如物体特征值的分布),这些信息可能在某种...

10得票4回答
在Keras中,flow_from_directory能够从同一个目录中获取训练和验证数据吗?

我从这里得到了以下示例。train_datagen = ImageDataGenerator( rescale=1./255, shear_range=0.2, zoom_range=0.2, horizontal_flip=Tr...

10得票1回答
HoG特征的理想数量是多少?

有多种方法可以提取HoG特征,包括使用不同的方向、每个单元的像素数量以及不同的块大小。 但是否存在标准或最佳配置呢?我有50x100大小的训练图像,并选择了8个方向的方向。我从训练数据中提取特征以进行车辆分类,但我真的不知道什么是“最佳”的。 例如,这里有两种配置,有没有理由选择其中一种而...

9得票1回答
在R中进行连续神经网络训练的数据规范化

我希望能够实现神经网络的持续训练,以应对不断涌入的输入数据。然而,随着新数据的不断到来,归一化的数值也会发生变化。举个例子,在第一个时间节点: df <- "Factor1 Factor2 Factor3 Response 10 10000 0.4 ...

9得票1回答
自学习算法

我希望为一个特定的问题开发自学算法。为了简单起见,我将举个简单的例子。 更新:我在下面的答案中添加了一个可行的解决方案。 假设我有一个来自数据库的大量实体列表。每个实体都是相同类型,并且具有4个字节类型的属性。 public class Entity { public byte ...

9得票2回答
Keras ImageDataGenerator 缓慢

我正在寻找在Keras中处理大于内存数据的最佳方法,目前注意到普通的ImageDataGenerator比我希望的要慢。我有两个网络在Kaggle的猫和狗数据集(25000张图片)上进行训练: 1)这种方法正是来自:http://www.pyimagesearch.com/2016/09/2...

9得票3回答
当网络完全收敛时停止Keras训练

我要如何配置Keras,使其在收敛或损失为0时停止训练?我有意想过拟合它。我不想设置迭代次数,只想在它达到收敛时停止训练。

9得票2回答
使用Python的sklearn实现随机森林模型的增量训练

我正在使用以下代码保存随机森林模型,使用cPickle保存训练好的模型。当我查看新数据时,我是否可以逐步训练模型。目前,训练集有约2年的数据。是否有一种方法可以使用另外两年的数据进行训练,并将其(类似地)附加到现有的保存模型中。 rf = RandomForestRegressor(n_e...

8得票2回答
如何获取用于haar训练的背景样本图像?

我需要收集一些样本图像(负图像,也称为背景图像)以进行使用opencv的haar训练。据说我需要有很多这样的图像,大约5000或10000张。你知道哪里可以获取它们吗?