将PDF文件拆分为段落

Question

将PDF文件拆分为段落

pythonpdfsplitparagraph

6

我有一个关于拆分pdf文件的问题。基本上，我有一堆pdf文件，我想按段落来拆分这些文件。也就是说，每个pdf文件的每个段落都要成为一个单独的文件。如果可能的话，最好用Python帮我解决这个问题，但如果不行，任何语言都可以。

- LoniF

你打算使用什么工具来从PDF中提取文本？pdf2text也可以使用。 - Radan

我目前正在编写一个程序，该程序使用子进程调用pdftotext解析PDF文件。它非常有用：https://en.wikipedia.org/wiki/Pdftotext - Steampunkery

@Radan 我想计算段落之间的相似度。所有的PDF文件都由多个段落组成，我想知道这些段落彼此之间有多相似。但首先我需要将PDF文件分割成段落。 - LoniF

1

直接转换为文本会丢失很多信息，而且转换的具体参数取决于您使用的软件包。但是，如果您选择访问PDF结构，则我发现pymupdf是一个很好的选择。以下是一篇文章，介绍了如何在提取过程中使用该结构获取更多信息：https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 - Veltzer Doron

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Radan · Accepted Answer

您可以使用pdftotext来完成上述操作，将其包装在Python子进程中。或者您可以使用一些已经隐含执行此操作的其他库，例如textract。以下是一个快速示例，注意：我使用了4个空格作为分隔符将文本转换为段落列表，您可能希望使用不同的技术。

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)