在这段时间里(特别是在Netflix竞赛中),我经常看到一篇博客(或排行榜论坛),里面提到通过在数据上应用简单的SVD步骤,可以帮助减少数据的稀疏性或者一般地提高他们手头算法的性能。我一直在思考(很长时间了),但是我无法猜测为什么会这样。
一般来说,我得到的数据非常嘈杂(这也是大数据的有趣之处),然后我确实知道一些基本的特征缩放技巧,比如对数转换和均值归一化。
但是像SVD这样的东西怎么会有帮助呢?
假设我有一个巨大的用户评分电影矩阵...然后在这个矩阵中,我实现了某个版本的推荐系统(比如协同过滤):
1) Without SVD
2) With SVD
它如何帮助