Understanding Precision@K, AP@K, MAP@K

Question

21

我正在评估基于隐式反馈的推荐系统。关于排名任务的评估指标，我感到有些困惑，特别是我想通过精确率和召回率来进行评估。

在排名任务中，精确率@k的优点是不需要对相关文档集的大小进行估计，但缺点是它是常用评估指标中最不稳定的之一，并且它不能很好地进行平均，因为查询的相关文档总数对k值的精确率有很大影响。

我已经注意到精确率@k通常会非常波动，因此我想从多个评估日志中平均结果。

我在想：如果我运行一个返回包含每个用户精确率@k分数的Numpy数组的评估函数，并且现在我有一个跨数据集的所有精确率@3分数的数组。如果我取这个数组的平均值并且对20个不同的得分平均:这相当于平均准确率@K或MAP@K吗？还是我对此理解过于字面？

我正在撰写一篇包括评估部分的论文，因此定义的准确性对我非常重要。

- apgsov

看看这个是否有帮助 - https://www.kaggle.com/nandeshwar/mean-average-precision-map-k-metric-explained-code - Nandesh

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- dataista · Accepted Answer

涉及两种平均值，使概念有些模糊，但在推荐系统背景下它们很直观，让我澄清一下：

您的系统中前 k 个推荐中有多少相关项目

例如，计算 P@3：取给定用户的前 3 个推荐并检查其中有多少是好的。该数字除以 3 即可得到 P@3。

i=1, ..., K 的 P@i 的平均值。

例如，计算 AP@3：将 P@1、P@2 和 P@3 相加，并将该值除以 3。

通常为一个用户计算 AP@K。

所有用户的 AP@K 值的平均值。

例如，计算 MAP@3：将所有用户的 AP@3 值相加，然后将该值除以用户数量。

如果您是程序员，可以查看此代码，它是由 Kaggle 的 CTO 维护的库 ml_metrics 中函数 apk 和 mapk 的实现。

希望对您有所帮助！