17得票2回答
从小型文本内容(例如推文)生成标签

我之前已经问过一个类似的问题,但我发现我有一个很大的限制:我正在处理小文本集,例如用户的推文,以生成标签(关键词)。 而且看起来被接受的建议(点互信息算法)是用于处理更大的文档。 在这种限制(处理少量文本)下,我该如何生成标签? 谢谢。

84得票2回答
使用Python进行PDF解析 - 提取格式化和纯文本

我正在寻找一款PDF库,它可以让我从PDF文档中提取文本。我已经看过了PyPDF这个库,它可以很好地从PDF文档中提取文本。但是问题在于,如果文档中有表格,则表格中的文本将与其余部分的文本内联提取。这可能会产生一些无用且杂乱的文本部分(例如,许多数字混在一起)。 我想从PDF文档中提取文本,...

45得票3回答
从给定的坐标中提取PDF文本

我想使用Ghostscript从PDF的一个部分(使用坐标)中提取文本。有人能帮我吗?

7得票4回答
在Python中检查两个字符串是否包含相同的单词集合

我正在尝试比较两个句子,看它们是否包含相同的单词集合。 例如:比较“今天是个好日子”和“是今天一个好日子”,应该返回true。 我目前正在使用collections模块中的Counter函数。 from collections import Counter vocab = {} for ...

10得票4回答
如何从图像中检测文本区域?

我希望在使用 Tesseract OCR 引擎之前,能够通过图像检测出文本区域。当输入只包含纯文本时,引擎能够良好地工作,但是当输入的图片中包含非文本内容时,引擎就会失败。因此,我希望能够仅检测出图像中的文本内容。如果有任何想法,请提供帮助。谢谢。

11得票6回答
从网站中提取正文内容,例如仅提取文章标题和正文文本而非所有文本。

我正在寻找可以从网站上提取文本的算法。我不是说“去掉HTML标签”,也不是指允许这样做的数百个库。 例如,对于新闻文章,我想识别标题和所有文本,但不包括评论部分等。 是否有相关算法可用?谢谢!

119得票6回答
使用Python中的PDFMiner提取PDF文件中的文本?

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。 看起来PDFMiner更新了他们的API,所有相关的例子都包含过时的代码(类和方法已经改变)。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法,所以我不确定该怎么做。 ...

13得票6回答
如何在Unix系统中通过行号从文件中提取行?

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行,我该如何使用sed或类似工具来提取这4行? 如果我需要提取的行数很多怎么办?如果有一个包含100个行号的文件,每个行号表示我想要从另一个文件中提取的行,我该如何操作呢?

14得票7回答
获取字符串中的最后一个整数

我需要从包含多个整数的字符串中分离出最后一个整数。如何获得 $lastnum1 中的 23 而不是 1?$text = "1 out of 23"; $lastnum1 = $this->getEval(eregi_replace("[^* out of]&...

8得票5回答
如何从A和B两人的对话中提取出仅由A说出的内容?这涉及到IT技术。

我有两个随意人物A和B之间对话的记录。 c1 <- "Person A: blabla...something Person B: blabla something else Person A: OK blabla" c2 <- "Person A: again blabla P...