得票数最多 'text-extraction' 问题 - 第3页

关联标签

18得票8回答

HTML内容提取的最新技术是什么？

对于HTML内容提取有很多学术研究，例如Gupta＆Kaiser（2005）从可访问的网页提取内容，这里也有一些相关的兴趣，例如 one, two, 和three，但我并不清楚后者实践得多好反映了前者的想法。什么是最佳实践？我正在寻找的是指向良好（特别是开源）实现和良好学术调查的指针。 ...

htmlhtml-content-extractiontext-extraction

17得票2回答

从小型文本内容（例如推文）生成标签

我之前已经问过一个类似的问题，但我发现我有一个很大的限制：我正在处理小文本集，例如用户的推文，以生成标签（关键词）。而且看起来被接受的建议（点互信息算法）是用于处理更大的文档。在这种限制（处理少量文本）下，我该如何生成标签？谢谢。

twitternlptext-extractionnltktext-analysis

16得票7回答

PDFminer：提取带有字体信息的文本

我发现了这个问题，但是它使用命令行，我不想用subprocess来调用Python脚本并解析HTML文件以获取字体信息。我想使用PDFminer作为一个库，我发现了这个问题，但是它们只是关于提取纯文本，没有其他信息，比如字体名称、字体大小等。

pythontext-extractionpdfminer

14得票2回答

使用Scikit-Learn的CountVectorizer将文本语料库中的单词按出现次数排序并列出。

我已经在scikit-learn中为一些文档配备了CountVectorizer。为了选择停用词，我想查看文本语料库中所有术语及其相应的频率。例如：'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on 是否有内置函数可以做...

pythonmachine-learningscikit-learntext-extractioncountvectorizer

14得票3回答

如何从PDF文件中提取特定标题下的文本？

我希望能够使用Python从PDF中提取特定标题下的文本。例如，我有一个包含引言、摘要和目录等标题的PDF文件。我需要仅提取“摘要”标题下的文本。我该如何做到这一点？

python-2.7pdfdocumenttext-extractionpdf-extraction

14得票7回答

获取字符串中的最后一个整数

我需要从包含多个整数的字符串中分离出最后一个整数。如何获得 $lastnum1 中的 23 而不是 1？$text = "1 out of 23"; $lastnum1 = $this->getEval(eregi_replace("[^* out of]&...

phpregexstringintegertext-extraction

13得票6回答

如何在Unix系统中通过行号从文件中提取行？

如果我想从一个文件中提取第1行、第5行、第1010行和第20503行，我该如何使用sed或类似工具来提取这4行？如果我需要提取的行数很多怎么办？如果有一个包含100个行号的文件，每个行号表示我想要从另一个文件中提取的行，我该如何操作呢？

unixsedawkline-numberstext-extraction

13得票6回答

从文件路径字符串中提取带扩展名的文件名。

我想从文件路径字符串的末尾获取文件名，例如：$text = "bob/hello/myfile.zip"; 我想要获取文件名，这可能需要将最后一个斜杠后面的所有内容作为子字符串。有谁能帮我用PHP实现这个简单的函数：$fileName = getFileName($text);

phpsubstringfilenamesfilepathtext-extraction

13得票6回答

基于Java的模板，提取网页信息

目前我使用Jsoup从某些第三方网页中提取特定信息（而非所有文本），我会定期执行此操作。这一方法在某些网页HTML发生变化之前是有效的，但当网页HTML发生变化时，现有的Java代码也需要进行更改，这是一项繁琐的任务，因为这些网页经常发生变化。此外，需要一个程序员来修复Java代码。以下是我感...

javatext-extractionnamed-entity-extraction

12得票4回答

提取所有唯一的行

我有一些文本文件，其中包含重复的完全相同的文本行，但我只想保留每个文本行中的一个。想象一下这个文本文件：AAAAA AAAAA AAAAA BB BBBBB BBBBB CCC CCC CCC 我只需要从中提取以下四行代码： I would only need the following ...

regextext-extraction