PHP,文档阅读库

4

我需要一个可以从文档(doc, doxc, pdf, html, rtf, odt...)中提取文本的库。是否有一个库(适用于所有文档类型)可以实现这个目的?


1
什么样的文本?您能否给我们更多细节? - Or Weinberger
3
没有“一种图书馆将它们全部带来,在黑暗中捆绑它们”的说法。如果有的话,我想支持可能是不可能的;因为覆盖所有这些格式会让任何开发人员组合都发狂。甚至有些文档格式找不到任何体面的库。 - Mark Baker
1
肯定没有一种库可以处理所有这些文档格式。它们之间差异很大,不同版本代表不同的架构。我相信最好为每种格式寻找最佳解决方案。 - Pekka
一些PDF文档被保存为图像,这将使得在没有使用OCR解决方案的情况下提取任何文本都变得不可能(当然,这也是可能的,但这是另一个额外的步骤)。 - Spudley
1
你说你只需要文字,但格式呢?有些文档中的大量文本没有格式将会变得混乱或无用。 - Spudley
4个回答

2

2
更安全的方法是先将您的文档转换为纯文本,然后解析纯文本版本的内容以进行所需操作。有很多命令行转换器可用于将不同格式转换为纯文本(如Word to txtPDF to txt等),适用于任何操作系统。
顺便提一下,关于PDF文件:并非所有PDF都实际包含纯文本,有些只是一组扫描图像,因此在这种情况下,您就没有办法了(除非您对它们使用OCR)。

1

OpenTBS 是一个 PHP 工具,可以读取和修改任何 OpenDocument 文件(ODT、ODS、ODG、ODF、ODM、ODP、OTT、OTS、OTG、OTP)。同时也支持 OpenXML 文件(DOCX、XLSX、PPTX)。

如果您需要将不受支持的文件格式转换为 OpenTBS 支持的格式之一,那么这个工具就可以胜任。


0

除了Windows系统之外,没有类似的库可以为您完成这项工作,并且未来也很可能不会有。主要原因是您指定的文档格式会不断更新。

但是,在Windows上,如果安装了php,您肯定可以使用activex扩展轻松读取所有这些格式,并且除了在计算机上安装php之外,您还需要安装适当的办公应用程序才能使其正常工作。这也确保了文档的将来版本在您的php代码中继续工作,只要您的办公应用程序可以读取这些文档即可。在php库集合中寻找“php win32”库,您应该能够找到一些不错的东西。


2
你从没用过Linux,对吧?它有很多针对不同文件格式的命令行转换工具... - wimvds
我曾经使用过Linux,但是无论你使用哪种办公文件转换器,都不可能达到100%的转换率……除非你的文档只是纯文本,没有使用应用程序中的任何其他功能,否则都会存在一些问题。 - Samnan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接