计算2维密度曲面上某点的概率

Question

计算2维密度曲面上某点的概率

3

如果我像这个例子一样计算两个向量的2D密度表面：

library(MASS)
a <- rnorm(1000)
b <- rnorm(1000, sd=2)
f1 <- kde2d(a, b, n = 100)

我得到了以下界面。

filled.contour(f1)

enter image description here

z值是估计的密度。

我的问题是：是否有可能计算单个点的概率，例如a = 1，b = -4？

[由于我不是统计学家，这可能是错误用词。抱歉。如果可能的话，我想知道一个点发生的概率是多少。]

感谢每一条评论！

- Tim

获得单个点的概率等于零。如果您指定一个区间 [dx, dy]，在其中可能存在一个点，则您具有有限且明确定义的概率。 - RHertel

关键点：在密度曲线上的值不是概率。密度曲线下面的面积才是概率。由于一个点没有宽度，在曲线上的一个点下面没有面积。 - Rorschach

你能将某个东西标记为正确吗？ - Mike Wise

2个回答

4

这里的z值被称为“概率密度”，而不是“概率”。正如评论所指出的那样，如果您想要估计的概率，则需要对估计的密度进行积分，以找到估计曲面下的体积。

然而，如果您想要特定点的概率密度，则可以使用：

kde2d(a, b, n=1, lims=c(1, 1, -4, -4))$z[1,1]
# [1] 0.006056323

这将计算一个1x1的“网格”，并为您想要的点生成单个密度估算值。

绘图确认它已经生效：

z0 <- kde2d(a, b, n=1, lims=c(1, 1, -4, -4))$z[1,1]

filled.contour(
    f1,
    plot.axes = {
        contour(f1, levels=z0, add=TRUE)
        abline(v=1, lty=3)
        abline(h=-4, lty=3)
        axis(1); axis(2)
    }
)

enter image description here

- pete

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mike Wise · Accepted Answer

如果您指定了一个区域，那么该区域相对于您的密度函数就有一个概率。当然，单个点的概率为零，但是在该点上确实具有非零密度。那么这是什么呢？

密度是该概率密度在该区域上积分后除以标准区域测量值，并将标准区域测量值趋近于零的极限。所有这些都是基本微积分，通过编写一种计算该密度在该区域上积分的例程也相当容易，尽管我想 MASS 通常使用更复杂的积分技术。以下是基于您的示例快速编写的例程：

library(MASS)
n <- 100
a <- rnorm(1000)
b <- rnorm(1000, sd=2)
f1 <- kde2d(a, b, n = 100)
lims <- c(min(a),max(a),min(b),max(b))

filled.contour(f1)

prob <- function(f,xmin,xmax,ymin,ymax,n,lims){
  ixmin <- max( 1, n*(xmin-lims[1])/(lims[2]-lims[1]) )
  ixmax <- min( n, n*(xmax-lims[1])/(lims[2]-lims[1]) )
  iymin <- max( 1, n*(ymin-lims[3])/(lims[4]-lims[3]) ) 
  iymax <- min( n, n*(ymax-lims[3])/(lims[4]-lims[3]) )
  avg <- mean(f$z[ixmin:ixmax,iymin:iymax])
  probval <- (xmax-xmin)*(ymax-ymin)*avg
  return(probval)
}
prob(f1,0.5,1.5,-4.5,-3.5,n,lims)
# [1] 0.004788993
prob(f1,-1,1,-1,1,n,lims)
# [1] 0.2224353
prob(f1,-2,2,-2,2,n,lims)
# [1] 0.5916984
prob(f1,0,1,-1,1,n,lims)
# [1] 0.119455
prob(f1,1,2,-1,1,n,lims)
# [1] 0.05093696
prob(f1,-3,3,-3,3,n,lims)
# [1] 0.8080565
lims
# [1] -3.081773  4.767588 -5.496468  7.040882

注意，这个程序看起来没问题，并且给出了合理的答案，但是它还没有经过我在生产环境下进行的严格审查。