209得票25回答
如何从scikit-learn决策树中提取决策规则?

我能从已训练的决策树中提取出底层的决策规则(或“决策路径”),并将其以文本列表形式呈现吗? 类似这样:if A>0.4 then if B<0.2 then if C>0.8 then class='X'

146得票7回答
随机森林分类器中的特征重要性是如何确定的?

我有一个分类任务,其数据输入为时间序列,其中每个属性(n = 23)表示特定的时间点。除了绝对的分类结果外,我想要找出哪些属性/日期对结果产生了何种程度的贡献。因此,我只是使用了feature_importances_,这对我来说效果不错。 然而,我想知道它们是如何计算的,以及使用了哪种度量...

104得票3回答
scikit learn中的RandomForestClassifier与ExtraTreesClassifier比较

有人能解释一下scikit-learn中RandomForestClassifier和ExtraTreesClassifier之间的区别吗?我花了很多时间阅读这篇论文: P. Geurts,D. Ernst。和L. Wehenkel,“Extremely randomized trees”,机...

104得票6回答
我需要为使用随机森林(R包)时规范化(或缩放)数据吗?

我正在进行回归任务 - 我需要为randomForest(R包)归一化(或缩放)数据吗?同时,还需要对目标值进行规范化吗?如果需要- 我想使用caret包中的scale函数,但我找不到如何获取数据的方法(去缩放、非规范化)。你是否知道其他功能(在任何包中)可以帮助规范化/非规范化?谢谢,米兰。

92得票8回答
随机森林分类器.fit(): 值错误: 无法将字符串转换为浮点数

给定一个简单的 CSV 文件:A,B,C Hello,Hi,0 Hola,Bueno,1 显然,真实数据集比这个复杂得多,但这个数据集可以重现错误。我正在尝试构建一个随机森林分类器,代码如下:cols = ['A','B','C'] col_types = {'A': str, 'B': st...

84得票3回答
如何在R中使用随机森林处理缺失值?

library(randomForest) rf.model <- randomForest(WIN ~ ., data = learn) 我想拟合一个随机森林模型,但我得到了这个错误:Error in na.fail.default(list(WIN = c(2L, 1L, 1L, 2...

81得票6回答
sklearn随机森林能否直接处理分类特征?

假设我有一个分类特征,颜色,可以取值为 ['红色', '蓝色', '绿色', '橙色'], 我想用它来预测随机森林中的某些内容。如果我对其进行“one-hot编码”(即将其更改为四个虚拟变量),该如何告诉sklearn这四个虚拟变量实际上是一个变量?具体而言,在随机选择不同节点要使用的特征...

73得票2回答
什么是随机森林中的袋外误差?

什么是随机森林中的袋外误差? 它是否是寻找正确的随机森林树数量的最优参数?

58得票2回答
如何在GridSearchCV(随机森林分类器Scikit)上获得最佳估计器

我正在运行GridSearch CV来优化scikit中分类器的参数。完成后,我想知道哪些参数被选为最佳。但每次这样做时,我都会收到一个“AttributeError: 'RandomForestClassifier' object has no attribute 'best_estimat...

54得票2回答
如何解决Python sklearn中随机森林的过拟合问题?

我正在使用Python的sklearn包中实现的RandomForestClassifier构建二元分类模型。以下是交叉验证的结果:Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 ...