119得票6回答
使用Python中的PDFMiner提取PDF文件中的文本?

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。 看起来PDFMiner更新了他们的API,所有相关的例子都包含过时的代码(类和方法已经改变)。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法,所以我不确定该怎么做。 ...

13得票6回答
如何在Unix系统中通过行号从文件中提取行?

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行,我该如何使用sed或类似工具来提取这4行? 如果我需要提取的行数很多怎么办?如果有一个包含100个行号的文件,每个行号表示我想要从另一个文件中提取的行,我该如何操作呢?

20得票8回答
从HTML中提取文本的Java方法

我正在编写一个程序,用于下载HTML页面并选择其中一些信息,并将其写入另一个文件中。我想提取在段落标签之间的信息,但是我只能得到段落的一行。我的代码如下:FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

10得票4回答
如何从图像中检测文本区域?

我希望在使用 Tesseract OCR 引擎之前,能够通过图像检测出文本区域。当输入只包含纯文本时,引擎能够良好地工作,但是当输入的图片中包含非文本内容时,引擎就会失败。因此,我希望能够仅检测出图像中的文本内容。如果有任何想法,请提供帮助。谢谢。

45得票8回答
使用jQuery从批量文本中提取所有电子邮件地址

我有以下文本:sdabhikagathara@rediffmail.com, "assdsdf" <dsfassdfhsdfarkal@gmail.com>, "rodnsdfald ferdfnson" <rfernsdfson@gmail.com>, "Affdmd...

23得票10回答
如何从相对清晰的HTML中提取文本?

我的问题有点像 这个问题,但我有更多的限制: 我知道文档是合理的 它们非常规则(它们都来自同一来源) 我想获取大约99%的可见文本 大约99%的内容都是文本(它们或多或少是RTF转换为HTML) 我不关心格式或段落分隔符。 是否有任何工具可以执行此操作,还是我最好使用RegexBudd...

417得票13回答
Python模块用于将PDF转换为文本。

有没有Python模块可以将PDF文件转换成文本?我尝试了在Activestate中找到的一段代码,它使用了pypdf,但生成的文本没有空格,也没有用处。

120得票8回答
如何使用grep、正则表达式或perl提取符合某一模式的字符串

我有一个文件,看起来像这样: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...

40得票13回答
在Java中获取URL参数并从URL中提取特定文本

我有一个URL,需要从中获取v的值。 这是我的URL: http://www.youtube.com/watch?v=_RCIP6OrQrE 我该如何做呢?

7得票8回答
如何使用Amazon Textract处理PDF文件

我已经可以使用textract解析JPEG文件,但我希望能够用它来解析PDF文件。 以下是我的代码: import boto3 # Document documentName = "Path to document in JPEG" # Read document content wi...