我正在尝试对大量文档进行OCR(每天超过30万份)。目前我正在使用Tesseract .NET包装器,质量很好,但速度不够快。平均20个任务并行扫描同一PDF文件的半页所需的时间为2,546秒。我使用的代码如下:
using (var engine = new TesseractEngine(Tessdata, "eng", EngineMode.TesseractOnly))
{
Page page;
page = engine.Process(image, srcRect);
var text = page.GetText();
return Task.FromResult(text);
}
我通常会先将图片的分辨率减半并转换为灰度图像,然后使用OCR技术进行识别。但这个过程比较耗时,你有什么提高效率的方法吗?我的需求只是单行文本的识别结果,不需要对文本进行分段。也许我可以尝试使用Matlab for c#来加速处理过程。
new TesseractEngine
)? - GWigWam