使用Python 3从PDF解析标题和副标题。

4
我尝试将pdf解析成html,然后想从标签中提取标题和副标题。 pdf文档是由Microsoft Word生成的,所以我相信必定有方法来获取这些标题。
目前,我已经尝试使用Apache Tika和PDFMiner.six进行解析,但是获得的html并没有我可以用来提取文档标题和副标题的标签。
我想知道是否有方法来做到这一点,感激任何帮助。谢谢
1个回答

8
我建议您使用GROBID,这是一个机器学习库,用于从原始文档(例如PDF)中提取、解析和重构结构化的XML/TEI编码文档,特别是针对技术和科学出版物。
可在https://github.com/kermitt2/grobid-client-python找到适用于GROBID REST服务的简单Python客户端。
此Python客户端可用于通过GROBID服务处理给定目录中的一组PDF。结果将写入给定的输出目录,并包括PDF的结果XML TEI表示。
希望这能帮助到您。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接