我们有一个使用Tesseract进行光学字符识别(OCR)的C# .Net应用程序,可用于.tiff文件。以下是一个示例:
然后我们将数据输出到文本文件中。但是,Tesseract以竖直方式阅读数据。在我的示例图像中,它将tiff文件读取为两列数据,并且数据被从Tesseract输出,如下所示:
类型: 日期: 地址: 城市: 州: 所有者: 所有者类型: 面积: 抵押贷款: 12345 2017-04-06 100 Main St. Some City Some State John Doe Primary 10.25 Yes
我们希望Tesseract水平读取tiff文件,并使输出如下所示:
类型:12345 日期:2017-04-06 地址:100 Main St. 城市:Some City 州:Some State 所有者:John Doe 所有者类型:Primary 面积:10.25 抵押贷款:Yes
我们尝试了Tesseract的各种页面分割选项,但它们都产生了相同的结果。
是否有人遇到了这个问题?有人有什么想法吗?
类型: 日期: 地址: 城市: 州: 所有者: 所有者类型: 面积: 抵押贷款: 12345 2017-04-06 100 Main St. Some City Some State John Doe Primary 10.25 Yes
我们希望Tesseract水平读取tiff文件,并使输出如下所示:
类型:12345 日期:2017-04-06 地址:100 Main St. 城市:Some City 州:Some State 所有者:John Doe 所有者类型:Primary 面积:10.25 抵押贷款:Yes
我们尝试了Tesseract的各种页面分割选项,但它们都产生了相同的结果。
是否有人遇到了这个问题?有人有什么想法吗?