免费的OCR基准测试集资源

13

我想为扫描文本(通常是A4大小的任何扫描)进行OCR基准测试。我找到了一些NEOCR数据集(在这里),但NEOCR并不是我想要的。

我希望能够提供免费数据库资源链接,其中包含适当的图像和实际文本(包含在图像中)。我希望这个话题对于其他需要OCR数据集的人也有用,因为我没有找到任何好的参考来源。

谢谢!


1
UNLV数据集怎么样?(https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract) - Stef
2个回答

8
我在许多项目中使用了大学研究数据集,运气不错。这些数据集通常很有用,因为输入和预期结果需要发布以独立重现研究结果。其中一个例子是UNLV数据集,用于下面更详细地讨论的第四届OCR准确性测试
另一种方法是从数据集开始创建自己的训练集。与Project Gutenberg合作也可能值得尝试,该网站已经转录了57,136本书籍。您可以使用各种转换(如字体、旋转等)将HTML版本(带图像)打印出来。然后,您可以将图像转换并扫描它们以与文本版本进行比较。下面有一个示例。
1)OCR准确性年度测试 DOE 和 UNLV
美国能源部(DOE)和内华达大学拉斯维加斯分校(UNLV)的信息科学研究所(ISRI)在1992年至1995年间进行了5年的OCR测试。您可以在此处找到每年的研究描述:
概述:

1.1)UNLV Tesseract OCR测试数据发布在第四届OCR准确性测试中

第四次使用Tesseract的测试数据已经发布在线上。由于这是一项OCR研究,它可能适合您的目的。

这些数据现在作为UNLV OCR评估工具项目的一部分托管在Google Code上:

这是一组数据集,包含了1992年至1996年期间用于测试OCR准确性的数千个英语和一些西班牙语页面的图像、真实文本和区域文件;以及在UNLV/ISRI每年的OCR准确性测试中使用的OCR评估工具源代码。此外,还有适用于OCR和文本检索的UNLV信息科学研究所的出版物。您可以在以下链接中找到有关此数据集的信息:
- 描述:https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract - 数据集:https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads 在数据集链接中,您将会看到多个gzip压缩文件,您可以下载其中一个。每个压缩包中都有多个目录和文件,每个文档都有3个文件。
  • .tif 二进制图像文件
  • .txt 文本文件
  • .uzn 区域文件,用于描述扫描的图像

注意:发布时,我注意到这个数据集最初是由上面的 @Stef 在评论中发布的。

2) 古腾堡计划

古腾堡计划 已经转录了57,136本免费电子书,格式如下:

  • HTML
  • 带有图片的EPUB
  • 不带图片的EPUB
  • 带有图片的Kindle
  • 不带图片的Kindle
  • 纯文本 UTF-8

以下是一个示例:http://www.gutenberg.org/ebooks/766

您可以通过以下方式创建测试数据集:

创建测试文件:

从HTML、ePub、Kindle或纯文本版本开始 使用不同的字体、旋转、背景颜色、有或没有图片等进行渲染和转换。 将渲染转换为所需格式,例如TIFF、PDF等。 测试: 将生成的图像通过OCR系统运行 与原始纯文本版本进行比较。

2

2
欢迎来到StackOverflow Manas。虽然这个链接可能回答了问题,但最好在此处包含答案的基本部分并提供参考链接。[仅仅是一个链接的答案可能会被删除。] (//stackoverflow.com/help/deleted-answers) - 4b0
COCO数据集实际上是一个基准数据集,被一些大型巨头如Google、Microsoft、TextSpotter和VGG(牛津实验室)所使用。 - Manas Bhardwaj

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接