使用PHP从PDF中提取内容

5

请问如何使用PHP从PDF文档中提取内容?我面临的主要问题是格式。因此,请告诉我是否有一些方法可以提取具有相同格式的内容,并在在线文本编辑器上显示它。

谢谢

2个回答

1

请看一下XPDF

我想你可以这样做

$text = shell_exec("pdftotext $pdffile");

关于在编辑器中显示它?好吧,使用哪个编辑器呢? 为保留某种格式信息,并假设您所说的网页编辑器是 HTML 编辑器,您可以将其转换为 HTML。也许还有其他可用的工具,但由于我使用 xpdf,我遇到了基于 xpdf 的this 转换器。

基本用法

pdftohtml -noframes -c test.pdf test.html

将它导入您喜欢的编辑器中

echo file_get_contents('test.html');

你可能需要将一些内容封装在PHP函数/类中。而且你可能想要添加安全措施等等。


0
据我所知,使用PHP实时将PDF转换为可编辑的HTML并保留格式是不可能的。目前市面上有许多桌面应用程序都试图从PDF中提取数据,但结果有时可靠性更高,有时则不太可靠。我认为这在现实中是不可能的,你只能使用XPDF或其他命令行工具提取纯文本。
也许基于XML的新PDF格式会有所不同,但我对此一无所知。
当然,如果有解决方案,请随时证明我是错的 - 如果有解决方案,我自己也会非常感兴趣。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接