我有1400个样本,每个样本的维度约为60,000,这太高了,我正在尝试将它们的维数降低到原始值的10%。我正在使用theano autoencoders [Link],看起来成本一直在30,000左右(这非常高)。我尝试增加epochs的数量或降低学习率,但都没有成功。我对autoencoders不是很了解,所以我不确定该如何继续或何时停止尝试。
在继续进行任何其他测试之前,我想听听您的意见。
你认为数据集太小了吗(我可以再添加600个样本,总共约2000个)?
你认为使用堆叠自编码器有帮助吗?
我应该继续调整参数(epochs和learning rate)吗?
由于数据集是图片的合奏,我试图从自编码器中可视化重建,但我得到的都是相同的输出。这意味着,给定输入时,自编码器尝试重新构建输入,但我得到的却是任何输入的相同(几乎完全一样)的图像(看起来像数据集中所有图像的平均值)。这意味着内部表示不够好,因为自编码器无法从中重构图像。
数据集:大约1400-2000张扫描书籍的图片(包括封面),每张图片大约有60,000个像素(转化为一个具有60,000个元素的特征向量)。每个特征向量已归一化为[0,1],最初的值在[0,255]之间。
问题: 使用自编码器将其降维(如果可能)。
如果您需要任何额外的信息,或者我遗漏了一些有助于更好地理解问题的内容,请添加评论,我将非常乐意帮助您帮助我 =)。注意:我目前正在对整个数据集运行更多轮次的测试,并将根据结果更新我的帖子,这可能需要一些时间。
(n_channels,)
的签名。这将捕获一些视觉信息。 - eickenberg