为什么Netflix奖项如此具有挑战性?

17

刚刚阅读了Wired最近的一篇文章,我很好奇:Netflix Prize有什么难度?我的意思是以最真诚的方式提问,只是想了解比赛所面临的困难。推荐引擎普遍都这么难以改进吗?如果是这样,为什么会这样?或者说,Netflix是否特别难以改进,如果是这样,Netflix有什么特别之处,使得这比Amazon更具挑战性?


14
@Lucas 这是一个关于编程挑战和其技术细节的问题,因此与编程有关。我不明白为什么这个问题不适合在SO上发布。 - Dan Herbert
3
为什么不呢?推荐引擎当然与编程有关。可能不是在SO上最好的问题,但还是可以问的。 - dmeister
明显不相关的话题…… - djechlin
4个回答

30

推荐系统存在难以解决的问题:

  • 冷启动 - 在一个新系统或新用户中,没有足够的数据来创建准确的统计模型进行建议。
  • 评分偏见 - 如果您基于用户评分进行推荐,则经常进行评分的用户会向他们的口味倾斜结果。如果您是不喜欢额外步骤的人,那么有类似品味的人可能也不喜欢评分,因此他们的意见将被排除在推荐之外。
  • 未被评价的项目不太可能被评价 - 如果根据其评价选择,并因此对项目进行评级,那么未被评价的项目将不太容易被注意到,从而难以得到所需的评级以影响推荐。在另一个方向上,热门项目更加可见,评级更频繁,因此在推荐中扮演更大的角色。
  • 时间偏见 - 用户的评分会随着时间而变化。对于长期变化,您可以通过在推荐中添加时间元素来进行补偿。短期变化更难以解决。在观看查克·诺里斯马拉松之后,您可能更容易给动作电影高分。第二天,在哭泣地看完钢铁的玫瑰之后,您可能暂时对动作电影有偏见。
  • 动机不同 - 在基于物品的推荐系统中,为您姨妈生日买的针织书将影响您的推荐(如果您没有告诉系统不使用它)。您可能会因为孩子喜欢而给一个不好的儿童电影高评分。

总之,这使得推荐系统很难超越“还可以”的水平。一个精度为80%的系统似乎很好,但是每5次中就有1次错误。这使得它们对一些用户来说更麻烦而不值得。


2
在 Stack Overflow 的整个推荐引擎标签中,这是最好的答案之一。 :) - isomorphismes

14

因为 NetFlix 已经拥有非常优秀的推荐引擎。如果他们知道如何轻松地改进它,他们早就已经这样做了。他们的整个商业模式都围绕着向消费者跨销售产品(电影)。 推荐算法真正是他们业务的核心。 它运行得越好,他们就能赚更多的钱。


1
嗯...庞大的廉价库存、长尾效应、(可靠的)订阅收入以及利用互联网接触大量客户的力量对他们的商业模式也非常重要。 - isomorphismes

2
我认为这方面已经有一些文章了,但我现在不知道它们在哪里,所以我会在这里解释一下。
例如,当人们在亚马逊购买图书时,他们往往会购买某一类型的图书,因此推荐同类型的其他图书可能很容易。
对于电影,人们可能也会这样做,但通常人们不仅限于一个类型。人们可能会观看各种各样的电影:恐怖片、喜剧片、动作片、爱情片等等。
如果您只租了一部电影,而且那部电影是一部戏剧片,那么预测您喜欢哪些类型的电影就很难预测了。
如果有人能想出一个非常聪明的推荐引擎,Netflix 将从中受益匪浅。我认为他们主要是在寻找一个可以基于一两部电影推荐东西的引擎。对于不太了解 Netflix 的新客户,如果他们能早期找到自己喜欢的电影而无需搜索,他们就更有可能留下来。
在我看来,他们已经拥有与亚马逊相媲美的推荐引擎。我认为他们正在寻求进一步提升。

2

我和我的同事参加了这个项目。虽然我没有很强的人工智能背景,但推荐引擎需要一些对现有文献算法的深入了解,比如吉布斯采样、K方法、最近邻等。我们使用了吉布斯采样,但与Netflix已经拥有的相比,我们表现不佳。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接