这可能有点难度,但我还是要问一下。我需要任何可能使Tesseract OCR引擎更快的想法。我正在处理200万个PDF文件,包含约2000万页文本,并且需要尽可能地提高性能。如果什么都不做,目前的估计是需要一年时间才能完成。
我已经调整了输入图像,以获得一些增强效果,但我需要考虑其他方法。我认为在这一点上改进图像并不能让我有所突破。
例如:
我已经调整了输入图像,以获得一些增强效果,但我需要考虑其他方法。我认为在这一点上改进图像并不能让我有所突破。
例如:
- 是否可以使用优化标志或类似的方式重新编译Tesseract?
- 是否可以利用共享CPU内存或GPU?
- 我是否可以告诉Tesseract使用更多内存(我有很多)?
- 还有其他方法可以使基于CPU的C ++程序更快吗?
我显然不知道自己在说什么,因为我是一名Python开发人员,而Tesseract是用C++编写的,但如果有任何方法可以提高性能,我很乐意听取建议。