我有一个关于拆分pdf文件的问题。基本上,我有一堆pdf文件,我想按段落来拆分这些文件。也就是说,每个pdf文件的每个段落都要成为一个单独的文件。如果可能的话,最好用Python帮我解决这个问题,但如果不行,任何语言都可以。
我有一个关于拆分pdf文件的问题。基本上,我有一堆pdf文件,我想按段落来拆分这些文件。也就是说,每个pdf文件的每个段落都要成为一个单独的文件。如果可能的话,最好用Python帮我解决这个问题,但如果不行,任何语言都可以。
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)