从您的问题描述来看,每个用户都是一个序列,因此用户可能是您问题中的“批处理大小”。因此,首先 nExamples = nUsers
。
如果我正确理解了您的问题(预测下一个元素),您应该定义一个“回顾”的最大长度。比如说,您可以通过查看前7个元素来预测下一个元素(而不是查看整个序列)。
为此,您应该按以下方式分隔您的数据:
example 1: x[0] = [s0, s1, s2, ..., s6] | y[0] = s7
example 2: x[1] = [s1, s2, s3, ..., s7] | y[1] = s8
这里是一段关于IT技术的翻译内容:sn
是一个包含10个特征的样本。通常情况下,混合用户并不会产生影响。对于所有用户创建这些小片段,并将它们组合在一起。
这将导致数组的形状如下:
x.shape -> (BatchSize, 7, 10) -> (BatchSize, 7 step sequences, 10 features)
y.shape -> (BatchSize, 10)
也许您并不是想预测下一组特征,而只是想预测其他内容。在这种情况下,只需将y替换为所需的值即可。如果您只想得到一个结果,则可能会得到
y.shape -> (BatchSize,)
。
现在,如果您需要整个序列进行预测(而不是前n个元素),则必须定义最大长度并填充序列。
假设您的最长序列,就像您的示例一样,为52。那么:
x.shape -> (Users, 52, 10).
然后你需要“填充”序列来填补空白。
例如,您可以在序列开头填充零特征,如下所示:
x[0] = [s0, s1, s2, ......., s51] -> user with the longest sequence
x[1] = [0 , 0 , s0, s1, ..., s49] -> user with a shorter sequence
或者(我不确定这是否有效,我从未测试过),在结尾处填充零值并使用
掩蔽层,这是Keras用于“可变长度序列”的功能。您仍然使用固定大小的数组,但在内部它会丢弃零值。