最新 'text-extraction' 问题 - 第3页

关联标签

17得票2回答

我之前已经问过一个类似的问题，但我发现我有一个很大的限制：我正在处理小文本集，例如用户的推文，以生成标签（关键词）。而且看起来被接受的建议（点互信息算法）是用于处理更大的文档。在这种限制（处理少量文本）下，我该如何生成标签？谢谢。

84得票2回答

我正在寻找一款PDF库，它可以让我从PDF文档中提取文本。我已经看过了PyPDF这个库，它可以很好地从PDF文档中提取文本。但是问题在于，如果文档中有表格，则表格中的文本将与其余部分的文本内联提取。这可能会产生一些无用且杂乱的文本部分（例如，许多数字混在一起）。我想从PDF文档中提取文本，...

45得票3回答

我想使用Ghostscript从PDF的一个部分（使用坐标）中提取文本。有人能帮我吗？

7得票4回答

我正在尝试比较两个句子，看它们是否包含相同的单词集合。例如：比较“今天是个好日子”和“是今天一个好日子”，应该返回true。我目前正在使用collections模块中的Counter函数。 from collections import Counter vocab = {} for ...

10得票4回答

我希望在使用 Tesseract OCR 引擎之前，能够通过图像检测出文本区域。当输入只包含纯文本时，引擎能够良好地工作，但是当输入的图片中包含非文本内容时，引擎就会失败。因此，我希望能够仅检测出图像中的文本内容。如果有任何想法，请提供帮助。谢谢。

11得票6回答

我正在寻找可以从网站上提取文本的算法。我不是说“去掉HTML标签”，也不是指允许这样做的数百个库。例如，对于新闻文章，我想识别标题和所有文本，但不包括评论部分等。是否有相关算法可用？谢谢！

119得票6回答

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API，所有相关的例子都包含过时的代码（类和方法已经改变）。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法，所以我不确定该怎么做。 ...

13得票6回答

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行，我该如何使用sed或类似工具来提取这4行？如果我需要提取的行数很多怎么办？如果有一个包含100个行号的文件，每个行号表示我想要从另一个文件中提取的行，我该如何操作呢？

14得票7回答

我需要从包含多个整数的字符串中分离出最后一个整数。如何获得 $lastnum1 中的 23 而不是 1？$text = "1 out of 23"; $lastnum1 = $this->getEval(eregi_replace("[^* out of]&...

8得票5回答

我有两个随意人物A和B之间对话的记录。 c1 <- "Person A: blabla...something Person B: blabla something else Person A: OK blabla" c2 <- "Person A: again blabla P...