我有遗传数据。它相当庞大,约有17,000个遗传标记(SNP)和700个个体。这些SNP可以分配给一个创始人。 现在我想计算每个“创始人片段”的平均概率。片段被定义为一部分染色体,该部分未中断地分配给一个创始人。
在下面的示例中,我将有3个片段。
最终,我想知道片段内所有SNP的平均概率。
Chromosome SNP Founder Probability
1 1 7 0.6
1 2 7 0.5
1 3 7 0.7
1 4 2 0.5
1 5 2 0.8
1 6 7 0.6
1 7 7 0.5
我可以使用
dplyr
轻松分组,但我不想将创始人7的第一个片段与其他创始人7的片段放在一起。所以我想要的是:
Chromosome SNP Founder Probability Average
1 1 7 0.6 0.6
1 2 7 0.5 0.6
1 3 7 0.7 0.6
1 4 2 0.5 0.65
1 5 2 0.8 0.65
1 6 7 0.6 0.55
1 7 7 0.5 0.55
如果有相同的分组因素,我该如何计算群组均值I?
dplyr
给了我:Error: expecting a single value
。data.table选项覆盖了我的创始人变量,但这个很容易再次替换。所以,问题解决了。 :) - user6735210dplyr_0.5.0
。它可以与你的示例数据集一起使用。 - akrundplyr_0.4.3
,同时也有plyr_1.8.4
。但仍然出现了Error: expecting single value
的错误。 我的数据还有4列,但这不应该有影响。 - user6735210