如何使用PHP从PDF文档中提取文本?
(我不能使用其他工具,也没有root访问权限)
我找到了一些适用于纯文本的函数,但它们无法很好地处理Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
如何使用PHP从PDF文档中提取文本?
(我不能使用其他工具,也没有root访问权限)
我找到了一些适用于纯文本的函数,但它们无法很好地处理Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
下载class.pdf2text.php @ https://pastebin.com/dvwySU1a 或 https://webcheatsheet.com/php/scripts/pdf2text.zip
代码:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();