ALS模型 - 预测的full_u * v^t * v评分非常高。

Question

ALS模型 - 预测的full_u * v^t * v评分非常高。

apache-sparkapache-spark-mllibapache-spark-ml

11

我正在预测批量训练模型之间的评级。我正在使用此处概述的方法：ALS模型-如何生成完整的u * v^t * v？

! rm -rf ml-1m.zip ml-1m
! wget --quiet http://files.grouplens.org/datasets/movielens/ml-1m.zip
! unzip ml-1m.zip
! mv ml-1m/ratings.dat .

from pyspark.mllib.recommendation import Rating

ratingsRDD = sc.textFile('ratings.dat') \
               .map(lambda l: l.split("::")) \
               .map(lambda p: Rating(
                                  user = int(p[0]), 
                                  product = int(p[1]),
                                  rating = float(p[2]), 
                                  )).cache()

from pyspark.mllib.recommendation import ALS

rank = 50
numIterations = 20
lambdaParam = 0.1
model = ALS.train(ratingsRDD, rank, numIterations, lambdaParam)

然后提取产品特性...

import json
import numpy as np

pf = model.productFeatures()

pf_vals = pf.sortByKey().values().collect()
pf_keys = pf.sortByKey().keys().collect()

Vt = np.matrix(np.asarray(pf_vals))

full_u = np.zeros(len(pf_keys))

def set_rating(pf_keys, full_u, key, val):
    try:
        idx = pf_keys.index(key)
        full_u.itemset(idx, val)
    except:
        pass

set_rating(pf_keys, full_u, 260, 9),   # Star Wars (1977)
set_rating(pf_keys, full_u, 1,   8),   # Toy Story (1995)
set_rating(pf_keys, full_u, 16,  7),   # Casino (1995)
set_rating(pf_keys, full_u, 25,  8),   # Leaving Las Vegas (1995)
set_rating(pf_keys, full_u, 32,  9),   # Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
set_rating(pf_keys, full_u, 335, 4),   # Flintstones, The (1994)
set_rating(pf_keys, full_u, 379, 3),   # Timecop (1994)
set_rating(pf_keys, full_u, 296, 7),   # Pulp Fiction (1994)
set_rating(pf_keys, full_u, 858, 10),  # Godfather, The (1972)
set_rating(pf_keys, full_u, 50,  8)    # Usual Suspects, The (1995)

recommendations = full_u*Vt*Vt.T

top_ten_ratings = list(np.sort(recommendations)[:,-10:].flat)

print("predicted rating value", top_ten_ratings)

top_ten_recommended_product_ids = np.where(recommendations >= np.sort(recommendations)[:,-10:].min())[1]
top_ten_recommended_product_ids = list(np.array(top_ten_recommended_product_ids))

print("predict rating prod_id", top_ten_recommended_product_ids)

然而，预测的评分似乎过高：

('predicted rating value', [313.67320347694897, 315.30874327316576, 317.1563289268388, 317.45475214423948, 318.19788673744563, 319.93044594688428, 323.92448427140653, 324.12553531632761, 325.41052886977582, 327.12199687047649])
('predict rating prod_id', [49, 287, 309, 558, 744, 802, 1839, 2117, 2698, 3111])

这似乎是不正确的。欢迎任何提示。

- Chris Snow

1

我使用这个工具得到了不错的结果，但是这是通过隐式反馈来实现的。负面或未知的评分为0，而正面的评分为1。我获得了0到1之间的预测，并且使用排名作为度量标准，即并没有过多关注得分。 - yoh.lej

啊，有趣。我还没有研究过隐式反馈。如果你把你的评论发布为答案，如果没有其他人回答的话，你将默认获得赏金;) - Chris Snow

@yoh.lej 啊，这就解释了为什么我像Chris一样得到了如此夸张的评分！那么假设是评分是二进制的。Yohan，你能简要解释一下这个公式基于什么吗？我尝试过谷歌相似度测量，但没有看到它。我们在计算相似性时是针对什么进行计算的？我很感兴趣，因为我正在上线性代数课程。从逻辑上讲，似乎我们应该确定这个新用户最相似的现有用户，并使用他们的因素来预测评分——这种方法更加复杂吗？谢谢！（Chris-看看ALS.trainImplicit） - ScottEdwards2000

当然，我会在答案中详细阐述一些。 - yoh.lej

@yoh.lej- 你是如何使用排名作为指标的？能否分享更多细节？ - Neil

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- yoh.lej · Accepted Answer

我认为提到的方法只在意电影排名时有效。如果想获得实际评分，则似乎存在一些维度/缩放方面的问题。

这里的想法是猜测您新用户的潜在表示。通常，对于已在分解中的用户i，您拥有他的潜在表示u_i（在model.userFeatures()中的第i行），并且使用model.predict获取他对给定电影（电影j）的评分，它基本上将u_i乘以产品v_j的潜在表示。如果您将其与整个v相乘，则可以立即获得所有预测评分：u_i*v。

对于新用户，您需要从full_u_new中猜测他的潜在表示u_new。基本上，您需要50个系数来代表新用户对每个潜在产品因素的亲合力。为了简单起见，并且因为它足以满足我的隐式反馈用例，我只是使用点积，基本上将新用户投影到产品潜在因素上：full_u_new*V^t给您50个系数，其中系数i表示您的新用户看起来像产品潜在因素i的程度。这种方法在隐式反馈方面特别有效。因此，使用点积将给出结果，但它不会被缩放，这解释了您所看到的高分数。为了获得可用的分数，您需要更准确地缩放u_new，我认为您可以使用余弦相似度来获得它，就像他们在这里做的那样: https://github.com/apache/incubator-predictionio/blob/release/0.10.0/examples/scala-parallel-recommendation/custom-query/src/main/scala/ALSAlgorithm.scala。

@ScottEdwards2000 在评论中提到的方法也很有趣，但有些不同。您确实可以在训练集中寻找最相似的用户。如果有多个，您可以获得平均值。我认为它不会做得太糟糕，但这是一种非常不同的方法，并且您需要完整的评分矩阵（以找到最相似的用户）。找到一个相似的用户肯定可以解决扩展问题。如果您成功使两种方法都起作用，那么您可以比较结果！