免费的OCR基准测试集资源

Question

免费的OCR基准测试集资源

datasetocrtesseract

13

我想为扫描文本（通常是A4大小的任何扫描）进行OCR基准测试。我找到了一些NEOCR数据集（在这里），但NEOCR并不是我想要的。

我希望能够提供免费数据库资源链接，其中包含适当的图像和实际文本（包含在图像中）。我希望这个话题对于其他需要OCR数据集的人也有用，因为我没有找到任何好的参考来源。

谢谢！

- SuTron

1

UNLV数据集怎么样？（https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract） - Stef

2个回答

2

Coco数据集： https://vision.cornell.edu/se3/coco-text-2/

Char74K数据集： http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

COCO数据集是一种用于图像的基准数据集。世界上最艰苦的比赛使用COCO数据集进行组织。它可以用于物体检测、图像字幕和OCR。

- Manas Bhardwaj

2

欢迎来到StackOverflow Manas。虽然这个链接可能回答了问题，但最好在此处包含答案的基本部分并提供参考链接。[仅仅是一个链接的答案可能会被删除。] (//stackoverflow.com/help/deleted-answers) - 4b0

COCO数据集实际上是一个基准数据集，被一些大型巨头如Google、Microsoft、TextSpotter和VGG（牛津实验室）所使用。 - Manas Bhardwaj

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Grokify · Accepted Answer

我在许多项目中使用了大学研究数据集，运气不错。这些数据集通常很有用，因为输入和预期结果需要发布以独立重现研究结果。其中一个例子是UNLV数据集，用于下面更详细地讨论的第四届OCR准确性测试。

另一种方法是从数据集开始创建自己的训练集。与Project Gutenberg合作也可能值得尝试，该网站已经转录了57,136本书籍。您可以使用各种转换（如字体、旋转等）将HTML版本（带图像）打印出来。然后，您可以将图像转换并扫描它们以与文本版本进行比较。下面有一个示例。

1）OCR准确性年度测试 DOE 和 UNLV

美国能源部（DOE）和内华达大学拉斯维加斯分校（UNLV）的信息科学研究所（ISRI）在1992年至1995年间进行了5年的OCR测试。您可以在此处找到每年的研究描述：

概述：

概述：http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-nevada-las-vegas-unlv

1.1）UNLV Tesseract OCR测试数据发布在第四届OCR准确性测试中

第四次使用Tesseract的测试数据已经发布在线上。由于这是一项OCR研究，它可能适合您的目的。

这些数据现在作为UNLV OCR评估工具项目的一部分托管在Google Code上：

项目：https://code.google.com/archive/p/isri-ocr-evaluation-tools/

这是一组数据集，包含了1992年至1996年期间用于测试OCR准确性的数千个英语和一些西班牙语页面的图像、真实文本和区域文件；以及在UNLV/ISRI每年的OCR准确性测试中使用的OCR评估工具源代码。此外，还有适用于OCR和文本检索的UNLV信息科学研究所的出版物。您可以在以下链接中找到有关此数据集的信息：

- 描述：https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract - 数据集：https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads 在数据集链接中，您将会看到多个gzip压缩文件，您可以下载其中一个。每个压缩包中都有多个目录和文件，每个文档都有3个文件。

.tif 二进制图像文件
.txt 文本文件
.uzn 区域文件，用于描述扫描的图像

注意：发布时，我注意到这个数据集最初是由上面的 @Stef 在评论中发布的。

2) 古腾堡计划

古腾堡计划已经转录了57,136本免费电子书，格式如下：

HTML
带有图片的EPUB
不带图片的EPUB
带有图片的Kindle
不带图片的Kindle
纯文本 UTF-8

以下是一个示例：http://www.gutenberg.org/ebooks/766

您可以通过以下方式创建测试数据集：

创建测试文件：

从HTML、ePub、Kindle或纯文本版本开始使用不同的字体、旋转、背景颜色、有或没有图片等进行渲染和转换。将渲染转换为所需格式，例如TIFF、PDF等。测试：将生成的图像通过OCR系统运行与原始纯文本版本进行比较。