我已经将大约80页扫描成灰度PDF(图像格式)。文件最终大小约为70MB,非常庞大。
现在我正在寻找一种方法,将灰度图像PDF文件转换为简单的黑白文本PDF文件。
我已经尝试了很多次使用“gs”,但没有成功(只有几个百分比的恢复)。 如果有专家有什么想法,请告诉我。
现在我正在寻找一种方法,将灰度图像PDF文件转换为简单的黑白文本PDF文件。
我已经尝试了很多次使用“gs”,但没有成功(只有几个百分比的恢复)。 如果有专家有什么想法,请告诉我。
sudo apt-get install tesseract-ocr-[lang]
命令,将lang
替换为语言代码,如deu
表示德语,por
表示葡萄牙语等。 - estibordo sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
pdfocr -i input.pdf -o output.pdf
其中input.pdf
是输入文件的名称,output.pdf
是输出文件的名称。
默认情况下,它使用Tesseract。要安装它:
sudo apt-get install tesseract-ocr
pdfocr 创建了一个嵌入的文本层。
pdfsandwich
hocr2pdf
来创建一个纯文本PDF,但它现在还没有准备好用于主流市场。默认情况下使用tesseract并创建一个"三明治"式的PDF:图像 + 下方的文本。gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf
identify-im6.q16
出现“未授权”错误,我们应该采取什么措施?类似于这样的错误:imagemagick - convert:not authorized aaaa
@ error/constitute.c/ReadImage/453 - Stack Overflow - nealmcb对于 @A.B. 在 Ubuntu 14.04 上建议的图形界面,您应该按照以下步骤进行:
在 Ubuntu 14.04 上安装 OCR Tesseract
或者无论如何,将其添加到存储库列表中:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader
sudo apt update && sudo apt install pdfsandwich
pdfsandwich input.pdf
<!-- xxx -->
)来解决此问题(在我的文件中,这些是第90至95行)。 <policy domain="coder" rights="none" pattern="PS" />
<policy domain="coder" rights="none" pattern="PS2" />
<policy domain="coder" rights="none" pattern="PS3" />
<policy domain="coder" rights="none" pattern="EPS" />
<policy domain="coder" rights="none" pattern="PDF" />
<policy domain="coder" rights="none" pattern="XPS" />
阅读文档:
man pdfsandwich
pdftotext
sudo apt install poppler-utils
非常简单而且高效,只需运行pdftotext -layout xxx.pdf
即可保留原始布局作为文本。