我尝试将pdf解析成html,然后想从标签中提取标题和副标题。 pdf文档是由Microsoft Word生成的,所以我相信必定有方法来获取这些标题。
目前,我已经尝试使用Apache Tika和PDFMiner.six进行解析,但是获得的html并没有我可以用来提取文档标题和副标题的标签。
我想知道是否有方法来做到这一点,感激任何帮助。谢谢
目前,我已经尝试使用Apache Tika和PDFMiner.six进行解析,但是获得的html并没有我可以用来提取文档标题和副标题的标签。
我想知道是否有方法来做到这一点,感激任何帮助。谢谢