假设我有一组口号(短语),人们已经投票选择了他们最喜欢的口号,并且我想评估哪些单词使一些口号比其他口号更受欢迎。如何才能实现这一点呢?我的第一个想法是找到所有唯一的单词并对每个单词进行评分,评分为包含该单词的所有口号的平均得票数,但我认为频率也应以某种方式起作用,因此以下情况应成立:
- 如果单词A仅出现在获得最多投票的口号中,而单词B仅出现在获得第二多投票的口号中,则单词A更具“流行度”; - 但是,如果单词A仅出现在排名第一的口号中,而单词B出现在第二和第三名的口号中,则单词B应该获胜,因为它将更多的口号推向了前面; - 然而,单词A在排名最高的口号中出现一次仍然应该优于单词B在其他口号中出现三次,例如在排名靠后的口号中(也就是说,在评分中需要平衡得票率和频率)。
我还想消除通常很常见的单词(例如,“the”或“of”)。这与过去提出的有关识别趋势单词的问题有点相关,但不同之处在于时间上的变化不是一个因素。如果涉及到文献方面的指导,我很高兴被指引正确的方向,但我不确定要寻找什么。其他人是否也会处理这类问题?
- 如果单词A仅出现在获得最多投票的口号中,而单词B仅出现在获得第二多投票的口号中,则单词A更具“流行度”; - 但是,如果单词A仅出现在排名第一的口号中,而单词B出现在第二和第三名的口号中,则单词B应该获胜,因为它将更多的口号推向了前面; - 然而,单词A在排名最高的口号中出现一次仍然应该优于单词B在其他口号中出现三次,例如在排名靠后的口号中(也就是说,在评分中需要平衡得票率和频率)。
我还想消除通常很常见的单词(例如,“the”或“of”)。这与过去提出的有关识别趋势单词的问题有点相关,但不同之处在于时间上的变化不是一个因素。如果涉及到文献方面的指导,我很高兴被指引正确的方向,但我不确定要寻找什么。其他人是否也会处理这类问题?