最新 'text-extraction' 问题 - 第2页

关联标签

119得票6回答

使用Python中的PDFMiner提取PDF文件中的文本？

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API，所有相关的例子都包含过时的代码（类和方法已经改变）。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法，所以我不确定该怎么做。 ...

pythonpython-3.xpython-2.7text-extractionpdfminer

13得票6回答

如何在Unix系统中通过行号从文件中提取行？

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行，我该如何使用sed或类似工具来提取这4行？如果我需要提取的行数很多怎么办？如果有一个包含100个行号的文件，每个行号表示我想要从另一个文件中提取的行，我该如何操作呢？

unixsedawkline-numberstext-extraction

20得票8回答

从HTML中提取文本的Java方法

我正在编写一个程序，用于下载HTML页面并选择其中一些信息，并将其写入另一个文件中。我想提取在段落标签之间的信息，但是我只能得到段落的一行。我的代码如下：FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

javahtmlscreen-scrapinghtml-content-extractiontext-extraction

10得票4回答

如何从图像中检测文本区域？

我希望在使用 Tesseract OCR 引擎之前，能够通过图像检测出文本区域。当输入只包含纯文本时，引擎能够良好地工作，但是当输入的图片中包含非文本内容时，引擎就会失败。因此，我希望能够仅检测出图像中的文本内容。如果有任何想法，请提供帮助。谢谢。

c++image-processingtesseracttext-extraction

45得票8回答

使用jQuery从批量文本中提取所有电子邮件地址

我有以下文本：sdabhikagathara@rediffmail.com, "assdsdf" <dsfassdfhsdfarkal@gmail.com>, "rodnsdfald ferdfnson" <rfernsdfson@gmail.com>, "Affdmd...

javascriptjqueryregextext-extractionemail-address

23得票10回答

如何从相对清晰的HTML中提取文本？

我的问题有点像这个问题，但我有更多的限制：我知道文档是合理的它们非常规则（它们都来自同一来源）我想获取大约99％的可见文本大约99％的内容都是文本（它们或多或少是RTF转换为HTML）我不关心格式或段落分隔符。是否有任何工具可以执行此操作，还是我最好使用RegexBudd...

c#htmldtext-extraction

417得票13回答

Python模块用于将PDF转换为文本。

有没有Python模块可以将PDF文件转换成文本？我尝试了在Activestate中找到的一段代码，它使用了pypdf，但生成的文本没有空格，也没有用处。

pythonpdftext-extractionpdf-scraping

120得票8回答

如何使用grep、正则表达式或perl提取符合某一模式的字符串

我有一个文件，看起来像这样： <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...

regexperlsedhtml-parsingtext-extraction

40得票13回答

在Java中获取URL参数并从URL中提取特定文本

我有一个URL，需要从中获取v的值。这是我的URL: http://www.youtube.com/watch?v=_RCIP6OrQrE 我该如何做呢？

javaurltext-extraction

7得票8回答

如何使用Amazon Textract处理PDF文件

我已经可以使用textract解析JPEG文件，但我希望能够用它来解析PDF文件。以下是我的代码： import boto3 # Document documentName = "Path to document in JPEG" # Read document content wi...

amazon-web-servicesocrtext-extractionamazon-textract