使用PYMC3进行层次线性回归的多级别分析

Question

使用PYMC3进行层次线性回归的多级别分析

3

我正在尝试使用PYMC3建立层次线性回归模型。在我特定的情况下，我想看看邮政编码是否为其他特征提供了有意义的结构。假设我使用以下模拟数据：

import pandas as pd
import numpy as np
import pymc3 as pm

data = pd.DataFrame({"postalcode": np.floor(np.random.uniform(low=10, high=99, size=1000)),
                 "x": np.random.normal(size=1000),
                 "y": np.random.normal(size=1000)})
data["postalcode"] = data["postalcode"].astype(int)

我生成从10到99的邮政编码，以及一个正态分布的特征x和目标值y。现在我设置了一级和二级邮政编码的索引：

def create_pc_index(level):
    pc = data["postalcode"].astype(str).str[0:level]
    unique_pc = pc.unique()
    pc_dict = dict(zip(unique_pc, range(0, len(unique_pc))))
    return pc_dict, pc.apply(lambda x: pc_dict[x]).values

pc1_dict, pc1_index = create_pc_index(1)
pc2_dict, pc2_index = create_pc_index(2)

将邮政编码的第一位作为层次属性使用是可行的:

number_of_samples = 1000

x = data["x"]
y = data["y"]

with pm.Model() as model:
    sigma = pm.HalfCauchy('sigma', beta=10, testval=0.5, shape=1)
    mu_i = pm.Normal("mu_i", 5, sd=25, shape=1)
    intercept = pm.Normal('Intercept', mu_i, sd=1, shape=len(pc1_dict))

    mu_s = pm.Normal("mu_x", 0, sd=3, shape=1)
    x_coeffs = pm.Normal("x", mu_s, 1, shape=len(pc1_dict))

    mean = intercept[pc1_index] + x_coeffs[pc1_index] * x

    likelihood_mean = pm.Deterministic("mean", mean)
    likelihood = pm.Normal('y', mu=likelihood_mean, sd=sigma, observed=y)

    trace = pm.sample(number_of_samples)
    burned_trace = trace[number_of_samples/2:]

然而，如果我想在我的层级结构中添加第二个级别（在这种情况下仅限于拦截器，暂时忽略X），我会遇到形状问题。

with pm.Model() as model:
    sigma = pm.HalfCauchy('sigma', beta=10, testval=0.5, shape=1)
    mu_i_level_1 = pm.Normal("mu_i", 0, sd=25, shape=1)
    mu_i_level_2 = pm.Normal("mu_i_level_2", mu_i_level_1, sd=1, shape=len(pc1_dict))
    intercept = pm.Normal('Intercept', mu_i_level_2[pc1_index], sd=1, shape=len(pc2_dict))

    mu_s = pm.Normal("mu_x", 0, sd=3, shape=1)
    x_coeffs = pm.Normal("x", mu_s, 1, shape=len(pc1_dict))

    mean = intercept[pc2_index] + x_coeffs[pc1_index] * x

    likelihood_mean = pm.Deterministic("mean", mean)
    likelihood = pm.Normal('y', mu=likelihood_mean, sd=sigma, observed=y)

    trace = pm.sample(number_of_samples)
    burned_trace = trace[number_of_samples/2:]

错误信息是：

operands could not be broadcast together with shapes (89,) (1000,)

我该如何正确地在回归模型中建立多个层次？这仅仅是形状大小的问题吗？还是我存在更根本性的错误？

提前感谢！

- swebbo

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- frickskit · Answer 1

我认为拦截器的形状不能是len(pc2_dict)，而应该是len(pc1_dict)的mu。矛盾就在这里：

intercept = pm.Normal('Intercept', mu_i_level_2[pc1_index], sd=1, shape=len(pc2_dict))