18得票8回答
HTML内容提取的最新技术是什么?

对于HTML内容提取有很多学术研究,例如Gupta&Kaiser(2005)从可访问的网页提取内容,这里也有一些相关的兴趣,例如 one, two, 和three,但我并不清楚后者实践得多好反映了前者的想法。什么是最佳实践? 我正在寻找的是指向良好(特别是开源)实现和良好学术调查的指针。 ...

17得票2回答
从小型文本内容(例如推文)生成标签

我之前已经问过一个类似的问题,但我发现我有一个很大的限制:我正在处理小文本集,例如用户的推文,以生成标签(关键词)。 而且看起来被接受的建议(点互信息算法)是用于处理更大的文档。 在这种限制(处理少量文本)下,我该如何生成标签? 谢谢。

16得票7回答
PDFminer:提取带有字体信息的文本

我发现了这个问题,但是它使用命令行,我不想用subprocess来调用Python脚本并解析HTML文件以获取字体信息。 我想使用PDFminer作为一个库,我发现了这个问题,但是它们只是关于提取纯文本,没有其他信息,比如字体名称、字体大小等。

14得票2回答
使用Scikit-Learn的CountVectorizer将文本语料库中的单词按出现次数排序并列出。

我已经在scikit-learn中为一些文档配备了CountVectorizer。为了选择停用词,我想查看文本语料库中所有术语及其相应的频率。例如:'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on 是否有内置函数可以做...

14得票3回答
如何从PDF文件中提取特定标题下的文本?

我希望能够使用Python从PDF中提取特定标题下的文本。 例如,我有一个包含引言、摘要和目录等标题的PDF文件。我需要仅提取“摘要”标题下的文本。 我该如何做到这一点?

14得票7回答
获取字符串中的最后一个整数

我需要从包含多个整数的字符串中分离出最后一个整数。如何获得 $lastnum1 中的 23 而不是 1?$text = "1 out of 23"; $lastnum1 = $this->getEval(eregi_replace("[^* out of]&...

13得票6回答
如何在Unix系统中通过行号从文件中提取行?

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行,我该如何使用sed或类似工具来提取这4行? 如果我需要提取的行数很多怎么办?如果有一个包含100个行号的文件,每个行号表示我想要从另一个文件中提取的行,我该如何操作呢?

13得票6回答
从文件路径字符串中提取带扩展名的文件名。

我想从文件路径字符串的末尾获取文件名,例如:$text = "bob/hello/myfile.zip"; 我想要获取文件名,这可能需要将最后一个斜杠后面的所有内容作为子字符串。有谁能帮我用PHP实现这个简单的函数:$fileName = getFileName($text);

13得票6回答
基于Java的模板,提取网页信息

目前我使用Jsoup从某些第三方网页中提取特定信息(而非所有文本),我会定期执行此操作。这一方法在某些网页HTML发生变化之前是有效的,但当网页HTML发生变化时,现有的Java代码也需要进行更改,这是一项繁琐的任务,因为这些网页经常发生变化。此外,需要一个程序员来修复Java代码。以下是我感...

12得票4回答
提取所有唯一的行

我有一些文本文件,其中包含重复的完全相同的文本行,但我只想保留每个文本行中的一个。 想象一下这个文本文件:AAAAA AAAAA AAAAA BB BBBBB BBBBB CCC CCC CCC 我只需要从中提取以下四行代码: I would only need the following ...