例如,www.pdfscannerapp.com - 正好符合我的需求,但它只提供GUI界面,无法进行脚本化操作。
我知道Evernote可以使PDF文件可搜索,但只能在Evernote内部进行搜索。
我不要求完美的OCR结果,只要OCR结果能达到一定可接受的水平就可以,并且希望使用的是小型实用工具,而不是庞大的软件包。
(我注意到AD上有一个类似但不同的问题: Looking for Software to Scan or Convert to Searchable and Signable PDF - 但是,我不需要签名或填写PDF文件,并且我的要求是解决方案可以进行脚本化操作)
编辑:
1) 有几个工具允许提取结构化文本,但为了能够提取,文本必须存在;我主要指的是由扫描仪生成的纯粹的位图PDF。
2) 我并不一定寻求免费解决方案,我非常愿意为一个能满足我的需求的实用工具付费,但我不需要包含OCR功能的臃肿应用程序,其中包含了无数特性但其成本却无法仅仅因为OCR功能而购买。
3) 如上所述,我并不追求完美的OCR,只需一个适度可接受的OCR就可以了。不幸的是,在我的经验中,Tesseract真的低于这个标准。我将"适度可接受"的OCR定义为能够至少正确识别出账单(客户号码)的OCR。
编辑: "可脚本化"或"可自动化",即能够自动触发并在没有任何人类输入的情况下运行。