使用Python 3从PDF解析标题和副标题。

Question

4

我尝试将pdf解析成html，然后想从标签中提取标题和副标题。 pdf文档是由Microsoft Word生成的，所以我相信必定有方法来获取这些标题。

目前，我已经尝试使用Apache Tika和PDFMiner.six进行解析，但是获得的html并没有我可以用来提取文档标题和副标题的标签。

我想知道是否有方法来做到这一点，感激任何帮助。谢谢

- Ali Asad

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Aswathy - Intel · Accepted Answer

我建议您使用GROBID，这是一个机器学习库，用于从原始文档（例如PDF）中提取、解析和重构结构化的XML/TEI编码文档，特别是针对技术和科学出版物。

可在https://github.com/kermitt2/grobid-client-python找到适用于GROBID REST服务的简单Python客户端。

此Python客户端可用于通过GROBID服务处理给定目录中的一组PDF。结果将写入给定的输出目录，并包括PDF的结果XML TEI表示。

希望这能帮助到您。