将PDF文件拆分为段落

6

我有一个关于拆分pdf文件的问题。基本上,我有一堆pdf文件,我想按段落来拆分这些文件。也就是说,每个pdf文件的每个段落都要成为一个单独的文件。如果可能的话,最好用Python帮我解决这个问题,但如果不行,任何语言都可以。


你打算使用什么工具来从PDF中提取文本?pdf2text也可以使用。 - Radan
我目前正在编写一个程序,该程序使用子进程调用pdftotext解析PDF文件。它非常有用:https://en.wikipedia.org/wiki/Pdftotext - Steampunkery
@Radan 我想计算段落之间的相似度。所有的PDF文件都由多个段落组成,我想知道这些段落彼此之间有多相似。但首先我需要将PDF文件分割成段落。 - LoniF
1
直接转换为文本会丢失很多信息,而且转换的具体参数取决于您使用的软件包。但是,如果您选择访问PDF结构,则我发现pymupdf是一个很好的选择。以下是一篇文章,介绍了如何在提取过程中使用该结构获取更多信息:https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 - Veltzer Doron
1个回答

5
您可以使用pdftotext来完成上述操作,将其包装在Python子进程中。或者您可以使用一些已经隐含执行此操作的其他库,例如textract。以下是一个快速示例,注意:我使用了4个空格作为分隔符将文本转换为段落列表,您可能希望使用不同的技术。
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

您还需要从https://blog.alivate.com.au/poppler-windows/安装poppler。 - Chad

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接