我被赋予开发一个回归模型来查看不同课程的学生注册情况。这是一个非常好,干净的数据集,其中注册数量很好地遵循泊松分布。我在R中拟合了一个模型(使用GLM和Zero Inflated Poisson)。结果残差似乎合理。
然而,我随后被指示将学生人数更改为“率”,该比率计算为学生/学校人口(每个学校都有自己的人口)。现在这不再是计数变量,而是0到1之间的比例。这被认为是课程“入学比例”。
这个“率”(学生/人口)不再是泊松分布,但也肯定不是正常分布。所以,我对适当的分布和随后的模型表示它有点迷失。
对于这个新参数,对数正态分布似乎很合适,但是我有很多0值,所以它实际上不适用。
有关此新参数的最佳分布形式以及如何在R中对其进行建模的建议吗?
谢谢!
然而,我随后被指示将学生人数更改为“率”,该比率计算为学生/学校人口(每个学校都有自己的人口)。现在这不再是计数变量,而是0到1之间的比例。这被认为是课程“入学比例”。
这个“率”(学生/人口)不再是泊松分布,但也肯定不是正常分布。所以,我对适当的分布和随后的模型表示它有点迷失。
对于这个新参数,对数正态分布似乎很合适,但是我有很多0值,所以它实际上不适用。
有关此新参数的最佳分布形式以及如何在R中对其进行建模的建议吗?
谢谢!