使用PHP读取PDF文件的内容？

Question

使用PHP读取PDF文件的内容？

phppdf

4

我需要从一个复杂的PDF中读取特定部分。我在网上搜索了一些信息，有些人说FPDF不错，但它不能读取PDF，只能写入。是否有可以提取给定PDF的某些内容的库？

如果没有这样的库，那么有什么好方法可以读取给定PDF的特定部分吗？

谢谢！

- EOB

你会如何定义“特定部分”？按页面？按文档上的坐标位置？等等； - Jakub

我自己也不太熟悉PDF结构...我可能会先将其转换为文本，然后使用一些正则表达式进行解析。 - EOB

4个回答

1

$result = pdf2text ('sample.pdf');
echo "<pre>$result</pre>";

如何获取“干净”的文本：源代码pdf2text
http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

- Stoufa

0

现在还有一个名为https://github.com/smalot/pdfparser的工具。

use Smalot\PdfParser\Parser;

$pdfParser = new Parser();
$pdf = $pdfParser->parseFile('../path/to/your.pdf');

$content = $pdf->getText()

// or if you need to maintain the paragraphs
$content = preg_replace('/\s{3,}/m', "\n\n", trim($pdf->getText()));

- Andreas

0

那个怎么样？

http://www.phpclasses.org/package/702-PHP-Searches-pdf-documents-for-text.html

备注：我没有测试过这个类，只是阅读了描述。

- kim pastro

免费且简单的注册。 - kim pastro

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- greut · Accepted Answer

我看到这里有两个解决方案：

在此之前将您的PDF文件转换为其他格式：text，html。
使用一个库来完成这个任务，不过坏消息是，大多数库都是用Java编写的。

https://whatisprymas.wordpress.com/2010/04/28/lucene-how-to-index-pdf-files/