我已经尝试了几天如何在Win10上安装pdftotext,但是互联网搜索并没有给我带来任何结果。因此,对于那些需要知道的人,在Win10上使用Anaconda安装pdftotext。可能会因人而异。
安装Anaconda Python。有许多关于安装Anaconda的文章,因此我不会在这里探讨。
尝试运行pip install pdftotext,你将收到一个错误,需要Microsoft Visual C++。
在浏览器中导航到http://visualstudio.microsoft.com/downloads。在Visual Studio 2019工具选项卡下下载Visual Studio 2019构建工具。然后通过勾选C++构建工具选项框并单击“安装”来安装工具。
现在,您应该可以继续执行pip install命令以跳过VC++错误。不幸的是,您现在会遇到错误“无法打开包括文件:'poppler/cpp/poppler-document.h”。这是因为您缺少poppler库。
回到互联网!你需要为Windows安装poppler。在撰写本文时,你最好的选择是http://blog.alivate.com.au/poppler-windows。下载最新的二进制文件并解压缩。如果你查看错误消息,pip正在寻找位于{Anaconda3目录}\include\poppler\cpp\poppler-document.h的头文件。因此,请查看刚刚解压缩的存档。在include文件夹中,你会看到一个poppler目录。如果你进入其中的cpp目录,你会找到poppler-document.h文件。
我将整个poppler目录复制到了Anaconda3\include文件夹中,所以请这样做。
如果你尝试再次运行pip install,你仍然会得到很多错误!但这些不是你之前看到的任何错误,相反,这个错误是在寻找一个缺失的链接库,即poppler-cpp.lib。在另一台机器上搜索Conda安装程序,可以在poppler软件包中找到这个文件。所以,
conda install -c conda-forge poppler
这将安装我们的poppler-cpp.lib文件。然后,我们可以从其所在位置{Anaconda3目录}\Library\lib\poppler-cpp.lib复制该文件,并将其粘贴到pdftotext期望它在{Anaconda3目录}\libs的位置。
如果我们再次运行pip install pdftotext,它就可以正常运行了!我相信有人会找到一种更好的方法来完善这个过程,但现在我们在Win10上有一个可用的pdftotext Python库。
这些步骤可以在我的博客https://coder.haus/2019/09/27/installing-pdftotext-through-pip-on-windows-10/中找到,其中包含了截图。