93得票19回答
在一个大的单词序列中查找前K个高频词的最有效方法

输入: 一个正整数K和一段大文本。该文本实际上可以看作是单词序列。因此我们不必担心如何将其分解为单词序列。 输出: 文本中出现频率最高的K个单词。 我的思路如下: 遍历整个单词序列时,使用散列表记录所有单词的频率。在此阶段,键是“单词”,值是“单词频率”。这需要O(n)时间。 对(wor...

45得票12回答
使用Python进行单词频率排序统计

我需要使用Python计算文本中每个单词的出现频率。我的想法是将单词存入字典中,并为每个单词计数。 现在如果我需要按出现次数对单词进行排序,是否可以使用同一个字典而不是使用新字典,其中键为计数,值为单词数组?

33得票8回答
自然语言处理中的词频算法

没有学习信息检索的学位,我想知道是否存在任何算法用于计算在给定文本中单词出现的频率。目标是通过一组文本评论获得“一般感觉”,类似 Wordle。 我的要求: 忽略冠词、代词等 ('a', 'an', 'the', 'him', 'them' 等) 保留专有名词 忽略连字符,除了软连字符 ...

21得票7回答
使用R列出单词频率列表。

我一直在使用tm包来进行文本分析。我的问题是如何创建一个单词列表以及与其相关的频率。 library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt...

19得票2回答
字数统计:McIlroy的解决方案有多低效?

简而言之:1986年,一名采访者要求Donald Knuth编写一个程序,该程序接受文本和一个数字N作为输入,并按其频率排序列出前N个最常使用的单词。Knuth编写了一个10页的Pascal程序,Douglas McIlroy回复了以下6行Shell脚本: 长话短说:1986年,有人要求Do...

18得票2回答
无法对可变类型执行reduce操作plt.hist

我有一个数据集,包含数千个元素及其相应的频率。我需要绘制出前十个最常出现的元素的直方图。 我已经进行了以下操作: top_words = Counter(my_data).most_common() top_words_10 = top_words[:10] plt.hist...

18得票5回答
在一个字符串中高效计算单词频率

我正在解析一长串文本,并在Python中计算每个单词出现的次数。 我有一个函数可以工作,但我想知道是否有方法可以使它更有效率(就速度而言),是否有Python库函数可以为我完成这项任务,以便我不必重复发明轮子? 你能提供更有效的方法来计算长字符串中最常见的单词吗(通常超过1000个单词)? ...

15得票3回答
打印包含和不包含停用词的文本中出现最频繁的10个单词

这个问题我是从这里得来的,并加入了我的修改。我有以下代码:from nltk.corpus import stopwords def content_text(text): stopwords = nltk.corpus.stopwords.words('english') c...

14得票7回答
确定特定术语的词频

我是一名非计算机科学专业的学生,正在写一篇历史论文,需要确定若干文本中特定术语的出现频率,并绘制这些频率随时间的变化和趋势。虽然我已经知道如何确定给定文本文件中单词的频率,但我正在处理大量文件(>100),为了保持一致性,希望将频率计数所包含的单词限制在特定的词汇集合中(类似于“停用词列表”的...

14得票3回答
在Postgres中如何获取字符串的词频?

在Postgres中,是否可能从包含文本字符串的字段中识别出不同的单词以及每个单词的计数?