我是Tensorflow的新手,想要构建一个模型,能够在我的图片上执行OCR。所有的图像中都有9个字符(数字和字母),我的模型会类似于下面这个链接所示的模型:
https://matthewearl.github.io/2016/05/06/cnn-anpr/
我的问题是:我应该首先针对每个字符训练我的模型,然后再组合字符获取完整的标签,还是直接对完整的标签进行训练?
我知道我需要向模型传递图像+对应图像的标签,那么这些标签的格式是什么,是文本文件吗?我对这部分有点困惑,任何关于传递给模型的标签格式的解释都会很有帮助。谢谢。
[1,0]
,狗的标签表示为[0,1]
。 - niczky12