我想为扫描文本(通常是A4大小的任何扫描)进行OCR基准测试。我找到了一些NEOCR数据集(在这里),但NEOCR并不是我想要的。
我希望能够提供免费数据库资源链接,其中包含适当的图像和实际文本(包含在图像中)。我希望这个话题对于其他需要OCR数据集的人也有用,因为我没有找到任何好的参考来源。
谢谢!
1.1)UNLV Tesseract OCR测试数据发布在第四届OCR准确性测试中
第四次使用Tesseract的测试数据已经发布在线上。由于这是一项OCR研究,它可能适合您的目的。
这些数据现在作为UNLV OCR评估工具项目的一部分托管在Google Code上:
这是一组数据集,包含了1992年至1996年期间用于测试OCR准确性的数千个英语和一些西班牙语页面的图像、真实文本和区域文件;以及在UNLV/ISRI每年的OCR准确性测试中使用的OCR评估工具源代码。此外,还有适用于OCR和文本检索的UNLV信息科学研究所的出版物。您可以在以下链接中找到有关此数据集的信息:.tif
二进制图像文件.txt
文本文件.uzn
区域文件,用于描述扫描的图像注意:发布时,我注意到这个数据集最初是由上面的 @Stef 在评论中发布的。
2) 古腾堡计划
古腾堡计划 已经转录了57,136本免费电子书,格式如下:
以下是一个示例:http://www.gutenberg.org/ebooks/766
您可以通过以下方式创建测试数据集:
创建测试文件:
从HTML、ePub、Kindle或纯文本版本开始 使用不同的字体、旋转、背景颜色、有或没有图片等进行渲染和转换。 将渲染转换为所需格式,例如TIFF、PDF等。 测试: 将生成的图像通过OCR系统运行 与原始纯文本版本进行比较。Coco数据集: https://vision.cornell.edu/se3/coco-text-2/
Char74K数据集: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
COCO数据集是一种用于图像的基准数据集。世界上最艰苦的比赛使用COCO数据集进行组织。它可以用于物体检测、图像字幕和OCR。