威尔逊置信区间用于5星评级

12

威尔逊置信区间(Wilson's Confidence Interval)的参数可以是TRUE或FALSE,或者分别为“upvotes”和“downvotes”的值。从这些投票中生成一个评级。

对于我的项目,我认为WCI非常适合。但是,标量赞成和反对票不足以描述我正在评级的东西。

这就是5星级评分的作用,也是我需要有人否定我的逻辑的地方。现在我在想,如果我在WCI中实施5星级评分,那么以下应该可以在不破坏置信区间内部的情况下工作。

对于评分小部件中的每个星级,我们分配一个唯一的整数值。每个值都被视为正(upvote)或负(downvote)。因此,以下值将为:

1/5星:-2 2/5星:-1 3/5星:1 4/5星:2 5/5星:3

总结以上值。1星的最低票数被归类为2个反对票。2星的票数被归类为1个反对票。对于中等的3星评价,我们给予1个赞成票。对于4星评价,我们给予2个赞成票。对于最高的5星评价,我们给予3个赞成票。

请否定这种逻辑,为什么这不起作用?也许它违背了星级评分系统的“普通人理解”?


1
还有其他你可能想要进行比较的事情。例如,你可以并行运行4个不同的置信区间 - 一个“至少两颗星”,一个“至少三颗星”...等等,或者你可以计算平均星数的置信区间,或者中位数的置信区间。有很多方法可以将5种可能性的分布缩减为一个单一的数字,你想要哪一个可能取决于你想用那个单一的数字做什么。 - mcdowella
https://www.evanmiller.org/ranking-items-with-star-ratings.html 可能会有所帮助。 - Suzana
3个回答

5

很容易想到以下的“解决方法”,将多级评分系统转换为二进制的“赞同/反对”式排名(然后可以使用Wilson得分置信区间的下限进行评分):

假设您有一个流行的5星评级系统。因此,我们有许多投票,每个投票的值为:1、2、3、4或5。

要将这些评级“转换”为赞成/反对投票,请使用以下规则:

For star rating -- Add

*     - 0.00 to up votes and 1.00 to down votes (i.e. a full down vote)
**    - 0.25 to up votes and 0.75 to down votes
***   - 0.50 to up votes and 0.50 to down votes
****  - 0.75 to up votes and 0.25 to down votes
***** - 1.00 to up votes and 0.00 to down votes (i.e. a full up vote)

在我们将5星评级转换为赞/踩评级之后,我们可以按照Evan Miller文章中描述的通常得分计算方法进行下一步操作。

由于我不是统计学家或数学家,我很想听听其他人对此是否有意见以及这种方法可能存在的问题。


2
我采用类似的方法,将投票数乘以5。就好像每个用户都有5个可用的投票一样,因此1颗星表示1个赞成票和5个反对票。这也避免了我进行一些浮点运算。 - Mr. Goferito

2
首先,尝试理解WCI背后的直觉。或者更简单地说,正态近似区间(http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval)。
所有这些区间计算背后的直觉都很简单。您计算样本均值和标准偏差。区间是mean+-z*std。
在您的情况下,计算平均值很简单。它是评分本身的平均值。假设p1是1星级评分,p2,...,p5的比例。p1 + p2 + ... + p5 = 1。并且假设您正在使用n个样本来计算这些统计数据。您的数据平均值为1 * p1 + 2 * p2 + ... + 5 * p5。
您的数据方差为(E(x ^ 2)-(E(x))^ 2)/ n =((p1 * 1 ^ 2 + p2 * 2 ^ 2..+ p5 * 5 ^ 2)-(1 * p1 + 2 * p2 +.. + 5 * p5)^ 2)/ n
由于std = sqrt(var),因此很容易计算正态近似区间。我会让您继续扩展到WCI。

2
唉!我真希望在大学的时候学过统计学...不知怎么的,我选了所有的微积分和其他数学课程,但是没有选统计学,现在这个知识的缺失正在困扰我。@ElKamina,如果你能扩展一下你的回答,并且最好能用Ruby实现(就像这个页面上 http://www.evanmiller.org/how-not-to-sort-by-average-rating.html 那样),那对于任何寻找关于使用这个五星评级调整威尔逊置信区间的答案的人来说将会十分惊人。 - Alex Le

1
这个方案最大的问题是,一个5星评分的权重将与3个2星评分的权重相同。此外,一个有300个3星评分(应该是中等分数)的物品将与一个有100个5星评分(应该是完美分数)的物品得到相同的分数。
你可以计算每个可能分数的威尔逊置信区间。每个区间的下限值就是该分数对(加权)平均值的权重。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接