使用Perl从PDF中提取图像/文本

3
我正在尝试使用Perl从PDF文件中提取文本/图像/表格。我尝试使用CAM::PDF,但它提取的不是文本而是其他格式。是否有一种方法可以使用Perl模块从PDF中提取文本/图像/表格?

1
你能提供一个在线的PDF文件示例链接吗? - Borodin
来自Poppler的pdftohtml。不需要让自己失去理智。 - Sinan Ünür
2个回答

1

@priya..我尝试了这个模块,它对于PDF文本提取非常有效。

use strict;
use warnings;
use PDF::OCR::Thorough;


my $filename = "pdf.pdf";

my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";

0

使用CAM::PDF。它有一些方法可以帮助您提取图像或其他元素:

$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).

жҲ‘дҪҝз”ЁдәҶCAM::PDF -J AtwalгҖӮдҪҶжҳҜжҲ‘еңЁstdoutдёӯжІЎжңүеҫ—еҲ°жӯЈзЎ®зҡ„иҫ“еҮәгҖӮиҫ“еҮәз»“жһңеҰӮдёӢпјҡвҶ“ в—„ вҶ‘ в—„ В§ в—„ U вҶЁ вҶҗ в–¬ В§ В§ 0 X вҷҘ 6 \ V W H P вҷҘ , 3 В¶ вҖј в—„ В¶ В§ в—„ В§ вҖј вҲҹ в—„ В§ в–¬ вҶ’ 0 X вҷҘ 6 \ V W H P вҷҘ 6 H U L D O вҷҘ вҷ  вҖј В§ вҖј В§ в–ә В¶ вҶ‘ В¶ вҖј в–ә вҖј вҖј вҖј вҖј в–ә вҖј вҖј в–¬ ' 0 X вҷҘ 6 \ V W H P вҷҘ 8 V H U D G P L Q' H Q L D O в–ә R I в–ә 6 H U Y L F H вҷҘ вҷӮ ' R 6 вҷҖ вҷҘ 5 H V X O$ Y D L O D E L O L W
В§ вҖј вҷҘ P L Q X W H V вҷҘ В¶ вҷҘ V H F R Q G В¶ В§ В¶ вҷҘ P L O O L V H F R Q G V В¶ 5 H F R Y H U H G вҷҘ Z L W K L Q вҷҘ В¶ вҷҘ P L Q X W H вҷҘ ([H F X W L Y H вҷҘ 6 X P P D U \ вҷҘ 5 H S R U W вҶ” вҷҘ $ 5 3 B в–¬ в–¬ В¶ вҶ‘ B ' R 6
- Priya Samy
希望你不是试图在标准输出上打印图像;)。尝试将图像内容保存到文件中,然后在图像浏览器中打开该文件。 - J Singh
这是关于编程的内容,请将其从英语翻译成中文。仅返回已翻译的文本:这不是图像,而是文本。即使如此,它也会打印出来像这样。 - Priya Samy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接