我正在评估基于隐式反馈的推荐系统。关于排名任务的评估指标,我感到有些困惑,特别是我想通过精确率和召回率来进行评估。
在排名任务中,精确率@k的优点是不需要对相关文档集的大小进行估计,但缺点是它是常用评估指标中最不稳定的之一,并且它不能很好地进行平均,因为查询的相关文档总数对k值的精确率有很大影响。
我已经注意到精确率@k通常会非常波动,因此我想从多个评估日志中平均结果。
我在想:如果我运行一个返回包含每个用户精确率@k分数的Numpy数组的评估函数,并且现在我有一个跨数据集的所有精确率@3分数的数组。如果我取这个数组的平均值并且对20个不同的得分平均:这相当于平均准确率@K或MAP@K吗?还是我对此理解过于字面?
我正在撰写一篇包括评估部分的论文,因此定义的准确性对我非常重要。
在排名任务中,精确率@k的优点是不需要对相关文档集的大小进行估计,但缺点是它是常用评估指标中最不稳定的之一,并且它不能很好地进行平均,因为查询的相关文档总数对k值的精确率有很大影响。
我已经注意到精确率@k通常会非常波动,因此我想从多个评估日志中平均结果。
我在想:如果我运行一个返回包含每个用户精确率@k分数的Numpy数组的评估函数,并且现在我有一个跨数据集的所有精确率@3分数的数组。如果我取这个数组的平均值并且对20个不同的得分平均:这相当于平均准确率@K或MAP@K吗?还是我对此理解过于字面?
我正在撰写一篇包括评估部分的论文,因此定义的准确性对我非常重要。