通过子类化scipy.stats.rv_continuous创建偏态正态分布的问题

3

编辑: 已经弄清了分布情况。大部分情况下,我已经成功了,除了当形状参数为负数时。PDF应该适用于负形状值但在子类化分布上不起作用。


我正在尝试使用scipy stats创建一个倾斜正态分布。现在我只需要PDF。

我子类化了rv_continuous,但是当我使用skew_norm.pdf(x, shape)时,我得到了一个NaN数组。

这是我的类:

class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s):
        return 2 * norm.pdf(x) * norm.cdf(x * s)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

我尝试直接计算PDF(在类外部)并且它起作用。

另外,如果我添加 *args* ,我能像普通分布的PDF norm.pdf(x, loc=mu, scale=std) 一样传递位置和比例吗?

class skew_norm_gen(rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * norm.pdf(x, *args) * norm.cdf(x * s, *args)

skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

谢谢。


编辑:

我也尝试了一个简单的例子,感谢CT Zhu的建议。下面的代码有时会生成nan数组,有时会生成值的数组。

In [26]:
import scipy.stats as ss

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [27]:
data = ss.norm.rvs(0, size=100)
s = ss.skew(data)
skew_norm.pdf(data, s)

Out[28]:
array([ nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan])

EDIT 2:

如果形状参数小于0,则PDF输出NaN。

我可以直接计算偏态正态分布的PDF,结果很好。但如果尝试使用子类PDF,则会返回NaN。

1个回答

4

无法复制错误,参见:

In [15]:
import scipy.stats as ss
class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * s)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [17]:
skew_norm.pdf(3, 4)
Out[17]:
0.0088636968238760151

是的,您可以传递额外的*args

In [18]:

class skew_norm_gen(ss.rv_continuous):
    def _pdf(self, x, s, *args):
        return 2 * ss.norm.pdf(x, *args) * ss.norm.cdf(x * s, *args)
skew_norm = skew_norm_gen(name='skew_norm', shapes='s')

In [20]:
skew_norm.pdf(3, 4, loc=0.5, scale=3)
Out[20]:
0.18786061213807126

In [21]:
skew_norm.pdf(3, s=4, loc=0.5, scale=3)
Out[21]:
0.18786061213807126
In [22]:

skew_norm.pdf(3, s=4, loc=0, scale=1)
Out[22]:
0.0088636968238760151
In [28]:
plt.plot(np.linspace(-5, 5), skew_norm.pdf(np.linspace(-5,5),4), label='Skewed')
plt.plot(np.linspace(-5, 5), ss.norm.pdf(np.linspace(-5,5)), label='Normal')
plt.legend()    
Out[28]:
[<matplotlib.lines.Line2D at 0x1092667d0>]

输入图像描述

编辑:

在您的示例数据中,s为负数,导致生成的pdf文件只包含nan,这是由rv_continuous定义的默认badvalue(我认为它被称为这个)。

问题的根源在于:有一个默认的_argcheck()方法,用于验证参数是否有效。默认情况下,检查所有参数是否都>0。在这种情况下,不是这样。

因此,解决方案是通过覆盖默认的_argchek()方法来实现:

class skew_norm_gen(ss.rv_continuous):
    def _argcheck(self, skew):
        return np.isfinite(skew) #I guess we can confine it to finite value
    def _pdf(self, x, skew):
        return 2 * ss.norm.pdf(x) * ss.norm.cdf(x * skew)  

然后它应该能正常工作。

(我建议将额外的参数称为skew,只是为了易读性。's'可能意味着标准差等等。)


谢谢。我也成功地得到了一个简单的例子。但有时它会给我NaN,有时会给我一组值(请参见上面的编辑)。 - joehand
好的,我想通了。这与负形状参数有关。 - joehand
是的,你提供的示例数据很有帮助。为了解决这个问题,只需覆盖默认的 _argcheck 方法即可。否则,它会认为负偏斜参数无效,并在所有地方放置默认的 badvalue nan,请参见编辑。 - CT Zhu
1
太好了,谢谢!代码可以运行,我只需要做一个小改动,让偏差保持在(-1,1)之间,这是根据定义的限制。 - joehand

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接