R：增强回归树如何处理缺失数据？

Question

R：增强回归树如何处理缺失数据？

7

R实现的boosted regression trees（包gbm）默认如何处理预测变量的缺失值？它们是否被填充，如果是，使用哪种算法进行填充？

问题背景：我在近一年前进行了分析，并使用Elith等人提供的脚本来调用gbm。我现在意识到某些预测变量存在缺失值，我想知道增强回归树是如何处理这些值的。浏览了各种手册和论文后，我发现有关“增强回归树可以适应缺失值”之类的表述，但我找不到关于gbm如何处理缺失值的精确描述。分析本身运行没有问题，因此gbm肯定以某种方式处理了它们。在gbm手册中，甚至有一个示例，在其中故意引入NAs，以证明gbm在没有问题的情况下继续工作。现在我想知道gbm究竟如何处理NAs（跳过它们，填充它们...？）。

- user7417

3

此问题似乎不适合在此提问，因为它涉及统计算法的实现。这个问题可能更适合在 Cross Validated 提问。 - Simon O'Hanlon

@SimonO101：我不确定哪个论坛更合适，我会在Crossvalidated上发布。 - user7417

我会等一段时间 - 这个网站是由社区运营的。如果共识认为这是不相关的话，那么这个问题将会被关闭，你就知道该去在 CV 上问了。目前，只有我认为它更适合在 CV 上提问！ - Simon O'Hanlon

2

也许你需要加入更多的努力 - 告诉我们你是否查看了帮助文件（哪些函数？你没有说），并尝试使用和不使用NA的一些样本分析来查看发生了什么。我们都知道它可能会出现错误 - 你尝试过吗？ - Spacedman

@Spacedman：感谢您的建议，我在问题本身中添加了更多信息。 - user7417

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- IRTFM · Accepted Answer

gbm函数可用于缺失值的填充，方法在Jeffrey Wong的博客中有描述。缺失值使用代理分割，然后用户可以为未完成预测器集的项目获取预测结果。

他基于这种方法开发了一个软件包。GitHub存储库在一个文件的页眉中提到了gbm：

#' GBM Imputation
#'
#' Imputation using Boosted Trees
#' Fill each column by treating it as a regression problem. For each
#' column i, use boosted regression trees to predict i using all other
#' columns except i. If the predictor variables also contain missing data,
#' the gbm function will itself use surrogate variables as substitutes for the predictors.
#' This imputation function can handle both categorical and numeric data.

我只需要翻译这段文本吗？还是整个页面都需要翻译？