我正在编写一个程序,使用OCR(tessnet2)扫描图像文件并提取特定信息。在我发现我将要扫描来自Exchange服务器的PDF附件之前,这是很容易的。
我正在处理的第一个问题是如何将我的PDF转换为BMP文件。到目前为止,从TessNet2可以看出它只能读取图像文件-具体而言是BMP文件。因此,我现在的任务是将大小不确定(2-15页)的PDF转换为BMP图像。完成后,我可以使用已经构建的TessNet2代码轻松扫描每个图像。
我曾经看到使用Ghostscript来执行此任务的方法-我只想知道是否有另一个免费的解决方案或者你们中的某个好心人可以给我一个快速入门,以便利用Ghostscript进行此任务。
我正在处理的第一个问题是如何将我的PDF转换为BMP文件。到目前为止,从TessNet2可以看出它只能读取图像文件-具体而言是BMP文件。因此,我现在的任务是将大小不确定(2-15页)的PDF转换为BMP图像。完成后,我可以使用已经构建的TessNet2代码轻松扫描每个图像。
我曾经看到使用Ghostscript来执行此任务的方法-我只想知道是否有另一个免费的解决方案或者你们中的某个好心人可以给我一个快速入门,以便利用Ghostscript进行此任务。