我正在寻找一种分类由大量文本组成的扫描页面的方法。
以下是我的问题的具体细节。我有一个大型扫描文档集合,需要检测这些文档中特定类型的页面的存在。我计划将文档“分裂”成它们的组成页面(每个页面是一个独立的图像),并将每个图像分类为“A”或“B”。但我不知道最好的方法是什么。
更多细节:
- 我有许多“A”和“B”图像(页面)的例子,因此我可以进行监督学习。
- 我不清楚如何最好地从这些图像中提取特征进行训练。例如,那些特征是什么?
- 页面偶尔会轻微旋转,因此如果分类对旋转(以及较小程度的缩放)不太敏感,那将是很好的。
- 我想要一个跨平台的解决方案,最好是使用纯Python或常用库。
- 我考虑过使用OpenCV,但这似乎是一种“重量级”的解决方案。
编辑:
- “A”和“B”页面之间的区别在于,“B”页面上有带有相同一般结构的表单,包括条形码的存在。而“A”页面是自由文本。