基于点赞、分享和浏览量的热门帖子算法

3
我正在开发一个网站,其中将有无数的故事。这些故事包括文本、视频、照片和其他多媒体元素。可以根据各种基础过滤故事,其中一些是“新的”,显然将首先包含最新的故事,“特色”故事将手动标记,“流行”的故事需要我想出一个算法。
到目前为止,我所做的是对Facebook点赞数、分享次数(包括Facebook、Twitter或任何其他分享)和浏览次数取平均值。但我认为这样并不好。因为给三个指标相等的权重听起来并不真实,原因是社交垃圾邮件等。
期待一些真正好的算法来排名故事的受欢迎程度。
----补充-----

流行度算法仅基于“喜欢”,并基于时间戳将结果分类为每日、每周和每月的流行程度。而这篇文章提供了一个接近回答我的问题的答案,但并不完全,因为其中的度量标准是假定的。我正在寻找一些确切的度量标准,并附有真实的解释。例如,“Facebook * 2”,并解释为什么要乘以2。希望我现在没有重复!



流行度算法仅基于“喜欢”,并且该算法基于将结果分类为时间戳类别:当天、本周和本月的热门内容。而这个有一个答案几乎回答了我的问题,但不完全是因为那里假定了指标。我正在寻找一些确切的指标,并附有真实的解释。例如,“Facebook * 2”,并解释为什么要* 2用于Facebook。我希望现在没有重复! - Chandan Gupta
1个回答

3
我建议尝试使用回归算法。最常用的是线性回归,但如果该模型不适合-可以自由探索其他模型。
  1. 首先,确定每个故事的特征。您的特征是喜欢、推文、分享、查看等。我还会为每种类型(视频/照片/...)添加一个布尔指标(只能有值0或1的变量)。
  2. 接下来,创建一个训练集-这是一组已经得分的故事(由您或其他人类专家给出)。
  3. 现在,使用这些功能和训练集-使用一些回归算法将最适合您已经评分的示例的特征的模型创建出来。1
  4. 在您拥有模型之后-您可以使用它给所有其他文档打分。

关于垃圾邮件检测-您可以尝试异常检测算法


(1) 实际上,第二步和第三步可以同时完成 - 使用主动回归技术 - 在主动回归中,学习者(算法)会要求您提供示例,以使算法尽快学习。从我的实验结果来看,PAlice 是一个表现非常好的主动回归算法。


但是,人们根据点赞和评论数手动给帖子评分不是很困难吗?我的意思是,人类甚至无法准确地说出这是一篇受欢迎的帖子... 对吧? - eshb

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接