我有一堆PDF文件,其中一些是纯文本,但有些是完全或部分保存为“每页一个图像”,因为它们是从扫描仪生成的。
我需要提取PDF中包含的所有图像,然后单独检查每个图像。
我能够使用在SO中找到的Python脚本提取大多数图像,请参见问题: Extract images from PDF without resampling, in python? 其中一些包含的图像是使用JBIG2编码的,我找不到任何Python或其他工具将jbig2转换为可以轻松用通用图形工具打开的格式。
我需要提取PDF中包含的所有图像,然后单独检查每个图像。
我能够使用在SO中找到的Python脚本提取大多数图像,请参见问题: Extract images from PDF without resampling, in python? 其中一些包含的图像是使用JBIG2编码的,我找不到任何Python或其他工具将jbig2转换为可以轻松用通用图形工具打开的格式。
file
工具,我得到的是Netpbm图像数据,大小为902 x 1523,原始位,位图
,它更加可用,但似乎没有生成png类型的文件。我得到的是-145.pbm。 - undefined