我在R中使用randomForest包,该包允许计算相似度矩阵(P)。在该包的描述中,将参数描述为:“如果在调用randomForest时proximity=TRUE,则计算输入之间的相似度矩阵(基于数据点对出现在同一终端节点的频率)。”
我按以下方式获取随机森林的相似度矩阵:
P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity
当我调查P矩阵时,我看到像P(i,j)=0.971014493这样的值,其中i和j是我的训练数据集(x)中的两个数据实例。这样的值是没有意义的,因为当它乘以1000(森林中的树的数量)时,得到的数字不是整数,因此不是“频率”。请问有人可以帮我理解,为什么在接近度矩阵中会得到这样的实数?