推荐系统需要多少数据?

3

我需要为人力资源部门开发一个个性化/职业适性在线测试。基本上,用户将回答问题,例如在0-10的尺度上,并在回答50个问题后,我想将其转换为5种不同的个性/职业适性特征评级。

我没有任何真实数据可供使用,因此首先,是否值得使用像MyMediaLite(github)这样的推荐引擎。我需要多少样本才能训练出良好的性能?

以前,我通过简单地进行手动加权和总和来构建培训课程推荐器,其中每个问题增加了与该问题相关的几个课程的权重。它是一种专家系统,类似于前馈神经网络,我根据自己对问题和课程内容的知识调整了所有权重。

这次我想使用推荐系统,但我想知道我需要多少次才能进行50个问题测试,然后手动分配结果。100个例子够吗?那可能是可以的。1000个就太长了。我如何提前知道呢?

1个回答

1
尽管毫无用处,但我想说这是不可能给出一个确定的数字。当添加新样本时,您应该关注学习曲线。
您可以同时手动处理样本和引擎处理,然后比较两者给出的结果。一旦引擎给出的结果的度量,例如召回率和精确度达到您的期望值,那么您就获得了足够的样本。
希望这有所帮助!

谢谢,我知道这是一个含糊的问题。我想有人可能做过类似的事情,并可以告诉我参数数量与所需样本数量之间的关系。 - AwokeKnowing

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接