大家好,
我在以下挑战中遇到了困难。我有一个数据集,看起来像这样:
BuyerID Fruit.1 Fruit.2 Fruit.3 Amount.1 Amount.2 Amount.3
879 Banana Apple 4 3
765 Strawberry Apple Orange 1 2 4
123 Orange Banana 1 1 1
11 Strawberry 3
773 Kiwi Banana 1 2
我想要做的是简化数据(如果可能的话),并合并“水果”和“数量”变量。
BuyerID Fruit Amount Total Count
879 "Banana" "Apple" 4 3 7 2
765 "Strawberry" "Apple" "Orange" 1 2 4 7 3
123 "Orange" "Banana" 1 1 1 3 2
11 "Strawberry" 3 3 1
773 "Kiwi" "Banana" 1 2 3 2
我已尝试使用c()和rbind(),但它们无法产生我想要的结果 - 我也尝试了这里的技巧:data.frame rows to a list,但我不确定这是否是简化我的数据的最佳方法。
这样做的目的是为了让我更容易使用较少的变量来计算某些项目的出现次数,例如(例如60%的买家购买香蕉)。
我希望这是可行的 - 也欢迎任何建议。 感谢您。
data.table
包:data.frame
只能处理每个单元格中的一个值。 - Señor Oz <- data.frame(x = 1:5, y = I(lapply(seq_len(5),seq_len)))
。 - mneldata.frame
处理向量,以及为什么这是可能的(请注意,尽管如此,这是一个不好的想法)。 - Tyler Rinker