文本关键字查找算法

Question

文本关键字查找算法

algorithm

3

给定一组文本（可能是书籍、文章、文档等），如何为每个文本找到相关的关键词？常识建议：

- 分割单词 - 排除常用词（也称为停用词，例如“a，to，for，in”） - 统计单词频率 - 为每个单词评分，使用一个公式考虑了该单词在文档和其他文档中的频率、文档的单词数以及所有文档的总单词数。

问题是：哪种公式是好的呢？

- Attilio

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Attilio · Accepted Answer

我已经开发了一个。

对于每个单词，计算以下比率：

(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

关键词是在本文中出现频率最高的前20%的单词。

Ankerl提出了自己的公式：

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

其中:

curVal: 要评分的单词在待分析文本中出现的频率
curWords: 待分析文本中所有单词的总数
allVal: 要评分的单词在索引数据集中出现的频率
allWords: 索引数据集中所有单词的总数

这两种算法都运行得很好，结果往往相符。您知道任何方法可以做得更好吗？