我正在尝试在UCI银行营销数据上构建决策树和随机森林分类器-> https://archive.ics.uci.edu/ml/datasets/bank+marketing。该数据集中有许多分类特征(具有字符串值)。在Spark ML文档中,提到可以使用StringIndexer或VectorIndexer对分类变量进行索引以将其转换为数字。我选择使用StringIndexer(向量索引需要向量特征和向量装配器,将特征转换为向量特征只接受数字类型)。使用此方法,每个分类特征的级别将基于其频率分配数字值(类别特征的最常见标签的0)。
我的问题是,随机森林或决策树算法如何理解新特征(源自分类特征)与连续变量不同。索引特征是否在算法中被视为连续的?这是正确的方法吗?还是应该继续使用独热编码来处理分类特征。
我阅读了一些来自论坛的答案,但对最后一部分没有明确的理解。
我的问题是,随机森林或决策树算法如何理解新特征(源自分类特征)与连续变量不同。索引特征是否在算法中被视为连续的?这是正确的方法吗?还是应该继续使用独热编码来处理分类特征。
我阅读了一些来自论坛的答案,但对最后一部分没有明确的理解。