使用PHP读取PDF文件的内容?

4

我需要从一个复杂的PDF中读取特定部分。我在网上搜索了一些信息,有些人说FPDF不错,但它不能读取PDF,只能写入。是否有可以提取给定PDF的某些内容的库?

如果没有这样的库,那么有什么好方法可以读取给定PDF的特定部分吗?

谢谢!


你会如何定义“特定部分”?按页面?按文档上的坐标位置?等等; - Jakub
我自己也不太熟悉PDF结构...我可能会先将其转换为文本,然后使用一些正则表达式进行解析。 - EOB
4个回答

2

有没有适用于Windows的命令行工具? - EOB
是的,即使对于复杂的PDF文件,它也可以转换得非常快。我想没有其他办法...必须先解析文本。 - EOB
链接现在已经失效了 - 有没有可能更新一下? - undefined
@Andreas,archive.org有这个。现在可能有更好的工具。 - undefined
1
嗯,我们现在找到了https://github.com/smalot/pdfparser - 它的效果非常好。 - undefined

1

0
现在还有一个名为https://github.com/smalot/pdfparser的工具。
use Smalot\PdfParser\Parser;

$pdfParser = new Parser();
$pdf = $pdfParser->parseFile('../path/to/your.pdf');

$content = $pdf->getText()

// or if you need to maintain the paragraphs
$content = preg_replace('/\s{3,}/m', "\n\n", trim($pdf->getText()));


0

免费且简单的注册。 - kim pastro

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接