如何将图像输入神经网络？

Question

如何将图像输入神经网络？

image-processingcomputer-visionneural-networkpattern-recognition

37

我理解神经网络的工作原理，但如果我想将它们用于像实际字符识别这样的图像处理中，我不知道如何将图像数据输入神经网络。

我有一张非常大的“A”字母图片。也许我应该尝试从图像中获取一些信息/规格，然后使用该规格的值向量？这些值将成为神经网络的输入？

已经做过这种事情的人，可以解释如何做吗？

- Dzen

你已经有神经网络了吗？如果没有 - 这是一个奇怪的问题。如果有 - 至少发布接口。 - Vladislav Rastrusny

1

这并不是一个奇怪的问题。实际上，如果我得到了一个接口，那么这意味着我首先要决定如何将图像输入到神经网络中。问题是 - 即使图像非常大或非常小，我是否可以将图像数据（例如字母A）输入到神经网络中，或者我应该将其分解为一些参数，以唯一确定字母A！ - Dzen

如果我要将其分解为参数，我应该使用什么样的参数？ - Dzen

5个回答

7

您要解决的问题称为“特征提取”，这是一个非常复杂的问题，目前正在积极研究中。

最朴素的方法是将图像的每个像素映射到相应的输入神经元。显然，这仅适用于所有大小相同的图像，并且通常效果有限。

除此之外，还有许多其他方法... Gabor滤波器、Haar特征、PCA和ICA、稀疏特征等，这些都是一些流行的例子。我的建议是阅读一本关于神经网络和模式识别或者光学字符识别的教科书。

- Martin B

虽然这不是我的专长，但是快速搜索显示罗曼·扬波尔斯基的《光学字符识别的特征提取方法》可能包含你所需要的内容。 - Martin B

3

所有关于将NN应用于图像的考虑都在我们的2002年综述论文中涵盖（基于特征、基于像素、尺度不变性等）。

你面临的最大挑战是所谓的“维度灾难”。

我会将NN的表现与支持向量机进行比较（使用哪些核函数很棘手）。

- user1391128

1

您可以使用实际像素作为输入。这就是为什么有时候使用较小分辨率的输入图像更可取的原因。

人工神经网络的好处在于它们能够进行特征选择（通过为那些输入节点分配接近零的权重来忽略非重要像素）。

- Amro

0

以下是一些步骤：确保您的彩色/灰度图像是二进制图像。要做到这一点，执行一些阈值处理操作。接下来进行某种功能提取。对于OCR / NN相关的内容，此示例可能会有所帮助，尽管使用的是Ruby： https://github.com/gbuesing/neural-net-ruby/blob/master/examples/mnist.rb

- Egon

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ahans · Accepted Answer

最简单的解决方案是将所有图片的分辨率都归一化为相同大小，包括训练和测试过程中使用的图片。此外，每张图片中的字符应该大致相同大小。最好使用灰度图像，这样每个像素只会给出一个数字。然后，您可以使用每个像素值作为网络的一个输入。例如，如果您有一个16x16像素大小的图像，则您的网络将具有16 * 16 = 256个输入神经元。第一个神经元将看到（0,0）处的像素值，第二个神经元将看到（0,1），以此类推。基本上，您将图像值放入一个向量中，然后将该向量馈送到网络中。这应该已经可以工作。

通过先从图像中提取特征（例如边缘），然后在这些特征上使用网络，也许可以增加学习速度并使检测更加健壮。在这种情况下，您要做的是将先前的知识纳入进来。对于字符识别，您知道某些相关的特征。因此，在预处理步骤中提取它们，网络就不必再学习这些特征了。但是，如果您提供错误的、即不相关的特征，网络将无法学习图像-->字符的映射关系。