操作系统:Ubuntu 18.04
首先,使用以下命令安装tesseract-ocr
:
apt-cache show tesseract-ocr
sudo apt-get update && sudo apt-get upgrade
apt-get install tesseract-ocr --print-uris
apt-get install tesseract-ocr
sudo !!
如果您打算在tesseract中使用英语以外的语言,则需要安装相应的语言包。例如,对于葡萄牙语,您需要执行以下操作:
sudo apt-get install tesseract-ocr-por
否则,您将会收到错误提示:
Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/por.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your
"tessdata" directory.
Failed loading language 'por'
Tesseract couldn't load any languages!
Could not initialize tesseract.
如果你在谷歌上搜索“tesseract PDF”,你可能会找到这个
有点过时的帖子。然而,它给了你一些有用的提示。你首先需要将你的
.pdf
文件转换为
.tiff
文件。运行:
convert -density 125 originalfile.pdf -depth 8 -alpha Off newfile.tiff
如果像过时的帖子里一样,你忘记添加
alpha -Off
,你将会得到以下错误:
Tesseract Open Source OCR Engine v4.0.0-beta.1 with Leptonica
Error in pixReadFromTiffStream: spp not in set {1,3,4}
现在你可以运行最后的命令了。在你的原始PDF文件是葡萄牙语的特殊情况下,你将需要使用以下命令:
tesseract -l por newfile.tiff output pdf
生成的文件将被命名为
output.pdf
。例如,如果您的PDF文件是法语的,在安装相应的
tesseract-ocr-fra
之后,您将运行以下命令:
tesseract -l fra newfile.tiff output pdf
再次,所需的文件将是
output.pdf
。
pdf2searchablepdf
。它依赖于tesseract
。它运行良好。非常容易使用。在这里查看。https://askubuntu.com/a/1187881/327339 - Gabriel Staples