我目前正在尝试进行监督训练分类模型的机器学习任务。到目前为止,我有大约5M个训练样本和5M个交叉验证样本。每个样本目前有46个特征,但是我可能会在不久的将来生成10个以上的特征,因此任何解决方案都应该留出改进的余地。
我的问题是:我应该使用什么工具来解决这个问题?我想使用随机森林或SVM,但我担心后者在我的情况下速度太慢。我考虑过Mahout,但因为它需要一定量的配置并涉及命令行脚本而放弃了。我宁愿直接针对某个(文档良好的!)库编写代码或使用GUI定义我的模型。
我还应该说明的是,我正在寻找适用于Windows的解决方案(不需要像cygwin这样的东西),并且与.NET兼容的解决方案非常受欢迎。
你可以想象,当时间到来时,代码将在Amazon EC2的Cluster Compute Eight Extra Large Instance上运行,因此任何广泛使用RAM和多核CPU的内容都是受欢迎的。
最后但并非最不重要的一点是,我需要指出我的数据集是密集型的(即没有缺失值/每个向量的所有列都有一个值)。
我的问题是:我应该使用什么工具来解决这个问题?我想使用随机森林或SVM,但我担心后者在我的情况下速度太慢。我考虑过Mahout,但因为它需要一定量的配置并涉及命令行脚本而放弃了。我宁愿直接针对某个(文档良好的!)库编写代码或使用GUI定义我的模型。
我还应该说明的是,我正在寻找适用于Windows的解决方案(不需要像cygwin这样的东西),并且与.NET兼容的解决方案非常受欢迎。
你可以想象,当时间到来时,代码将在Amazon EC2的Cluster Compute Eight Extra Large Instance上运行,因此任何广泛使用RAM和多核CPU的内容都是受欢迎的。
最后但并非最不重要的一点是,我需要指出我的数据集是密集型的(即没有缺失值/每个向量的所有列都有一个值)。