BigQuery ML如何处理空的数值特征?

3

在分类特征中,我们可以看到BigQuery ML会自动创建一个"_null_filler"虚拟变量,通过运行ML.WEIGHTS来创建模型,这是合理的。

对于数值特征,缺失值是使用均值或其他方法进行填充的吗?这两种行为是否在官方文档中提到过?

1个回答

4

在统计学中,插补是用替代值替换缺失数据的过程。在训练时,当BigQuery在数据集中遇到空值时,会出现缺失值。在预测中,当BigQuery遇到空值或之前未见过的值时,也可能会出现缺失值。以下介绍了BigQuery ML如何处理各种情况下的缺失数据。

对于数值类型(由BigQuery ML自动标准化),在训练和预测时,空值将被替换为原始输入数据集中特征列计算出的平均值。

对于独热编码列,为了训练和预测,添加了一个额外的类别,所有空值都将映射到该类别。预测中,未见数据实际上被赋予了0的权重。

我们的公共文档中缺少这些信息。我们正在努力添加这些内容。感谢您提出此问题。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接