Tesseract盒子文件中的数字是什么?

5
我很努力地找到有关Tesseract框文件和坐标表示的文档,但始终未能找到。在这里,我将给出一些解释。

例如,我正在得到:

T 2768 165 2789 191 0

第一个标记显然是字符。我知道Tesseract使用左下角,所以2768应该是底部。第四个标记(2789)似乎是顶部。我不知道第三个(165),第五个(191)和第六个(0)标记是什么。165191作为左/右坐标是错误的,而0我不知道它是什么意思。是否需要考虑图像的DPI?
请问有人能帮助我吗?谢谢!
1个回答

5
根据文档,每行的格式为:
<symbol> <left> <bottom> <right> <top> <page>

说明:

  • <symbol> 代表字符,例如 a 或 b。
  • <left> <bottom> <right> <top> 是矩形坐标系,用于适应页面上的字符。请注意,Tesseract 使用的坐标系将 (0,0) 置于图像的左下角!
  • <page> 仅在使用多页 TIFF 文件时相关。在所有其他情况下,请在此处放置 0。

因此,在您的特定情况中:

T 2768 165 2789 191 0

希望是

  • 字符:T
  • 左:2768
  • 底部:165
  • 右:2789
  • 顶部:191
  • 页面:0

哈!谢谢你提供文档链接!我猜测<bottom>和<left>的坐标是错误的。这只是一个字符,所以无论是像素还是点数,这些数字应该非常相似。我会查看文档,看看能否找到更多信息。谢谢!! - nkkollaw
这些数字是如何计算出来的?我该如何将它们转换为笛卡尔坐标? - Naveen Gabriel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接