我该如何从PDF中提取文本内容(而不是图片),同时大致保留样式和布局,就像Google Docs可以做到的那样?
我该如何从PDF中提取文本内容(而不是图片),同时大致保留样式和布局,就像Google Docs可以做到的那样?
要从PDF中提取文本并获取其位置,您可以使用PDFMiner。 PDFMiner还可以将PDF直接导出为HTML,保持文本在正确的位置。
我不知道您的用例,但这样做可能会遇到很多问题,因为PDF确实是面向演示而不是内容,文本流不连续。因此,如果您想使文本可编辑,这将不是一项易于完成的任务。
python-pdfminer
,命令是pdf2txt
。 - naught101