VectorAssembler
创建一个特征向量,现在对于每一行,我有一个单一的特征向量和目标列。当我尝试访问Spark内置的回归摘要统计信息时,它们会给我一个非常原始的数字列表,表示这些统计信息中的每一个,没有办法知道哪个属性对应哪个值,如果有大量列,手动解决这个问题非常困难。
我该如何将这些值映射回列名?
例如,我当前的输出如下所示:
除非我知道它们对应哪个属性,否则这些数字毫无意义。但是在我的系数:[-187.807832407,-187.058926726,85.1716641376,10595.3352802,-127.258892837,-39.2827730493,-1206.47228704,33.7078197705,99.9956812528]
P值:[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.18589731365614548, 0.275173571416679, 0.0]
t统计量:[-23.348593508995318,-44.72813283953004,19.836508234714472,144.49248881747755,-16.547272230754242,-9.560681351483941,-19.563547400189073,1.3228378389036228,1.0912415361190977,20.383256127350474]
系数标准误差:[8.043646497811427,4.182131353367049,4.293682291754585,73.32793120907755,7.690626652102948,4.108783841348964,61.669402913526625,25.481445101737247,91.63478289909655,609.7007361468519]
DataFrame
中,我只有一个名为“features”的列,其中包含稀疏向量的行。当我有一个独热编码特征时,这更成为一个问题,因为如果我有一个长度为n的编码变量,我将得到n个对应的系数/ p值/ t值等。
attrs
。当我检查lr_transformed.schema[lrm.summary.featuresCol].metadata
时,我只得到了{'ml_attr': {'num_attrs': 105}}
。你能否给我一些关于这个问题的指导?谢谢! - Anita