给定一组文本(可能是书籍、文章、文档等),如何为每个文本找到相关的关键词?
常识建议:
- 分割单词 - 排除常用词(也称为停用词,例如“a,to,for,in”) - 统计单词频率 - 为每个单词评分,使用一个公式考虑了该单词在文档和其他文档中的频率、文档的单词数以及所有文档的总单词数。
问题是:哪种公式是好的呢?
- 分割单词 - 排除常用词(也称为停用词,例如“a,to,for,in”) - 统计单词频率 - 为每个单词评分,使用一个公式考虑了该单词在文档和其他文档中的频率、文档的单词数以及所有文档的总单词数。
问题是:哪种公式是好的呢?