文本关键字查找算法

3
给定一组文本(可能是书籍、文章、文档等),如何为每个文本找到相关的关键词? 常识建议:
- 分割单词 - 排除常用词(也称为停用词,例如“a,to,for,in”) - 统计单词频率 - 为每个单词评分,使用一个公式考虑了该单词在文档和其他文档中的频率、文档的单词数以及所有文档的总单词数。
问题是:哪种公式是好的呢?
1个回答

7

我已经开发了一个。

对于每个单词,计算以下比率:

(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

关键词是在本文中出现频率最高的前20%的单词。

Ankerl提出了自己的公式:

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

其中:

  • curVal: 要评分的单词在待分析文本中出现的频率
  • curWords: 待分析文本中所有单词的总数
  • allVal: 要评分的单词在索引数据集中出现的频率
  • allWords: 索引数据集中所有单词的总数

这两种算法都运行得很好,结果往往相符。您知道任何方法可以做得更好吗?


你是否可以访问布局信息(标题、分页、字体大小和样式等)? - user18428

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接