机器学习平台的选择

6
我有一组用户及其贷款还款指标的数据集(他们需要多长时间偿还,分几期等)。现在我想分析用户过去的贷款历史,并说:“如果我们借给他们X元,他们最可能在Y个分期内,在Z天内还清。”
以下是我的看法:
1.该算法是一个聚类算法,根据用户的还款习惯将所有用户分组。 2.我想使用SOM或K-Means。
那么我的问题是,哪些平台适用于此?到目前为止,我已经看了Mahout。

1
这取决于您需要处理多少数据以及可以等待结果多长时间。有时使用Knime或Rapidminer(具有良好用户界面的开源数据挖掘应用程序)可以更快地获得结果,而不是为Mahout找到足够的机器+进行配置+调整... - Skarab
5个回答

2
值得一看的是Weka - 这是一个相当成熟的开源工具包,其中包含许多机器学习算法,包括聚类。请点击此处了解更多信息。

2

0

另一个不错的库是 scikits.learn,这是一个专为Python程序员打造的机器学习库。


0

关于这个主题有一本非常棒的书 - Toby Segaran 的 "Programming Collective Intelligence"。它讨论了不同的机器学习算法、聚类等内容,还包括了有用的库和示例代码的链接。


0
为什么要聚类?这似乎不是聚类问题。你可以将聚类分析作为预处理阶段来区分几组用户(或者你可以省略此阶段),但然后你需要进行某种数字预测:分期付款和天数都是数字,那么你如何通过聚类得到这些数字呢?
我建议你使用回归来完成这个任务。线性回归应该能够满足你的需求。如果依赖变量(分期付款和天数)非线性地依赖于其他属性,你可以尝试多项式回归或甚至像M5'这样的算法,首先构建决策树,然后在该树的每个叶子节点上添加回归模型。
如果你有非数字属性,也可以尝试使用分类 - 在这种情况下,你需要手动创建可能的类别(例如,分期付款数量:从3到5个,从6到10个等),然后使用任何分类算法(C4.5、SVM、朴素贝叶斯等)。

实际上,我认为你没有大量的数据。我相信如果总共少于50Mb,那么就没有必要使用像Mahout这样的怪物,它们是为处理非常大量的数据而设计的。您可以使用WekaRapidMiner来完成此任务。即使它们不能使用默认配置处理您的数据,只需增加JVM的内存,在99%的情况下它们将正常运行。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接