机器学习平台的选择

Question

机器学习平台的选择

machine-learningcluster-analysismahout

6

我有一组用户及其贷款还款指标的数据集（他们需要多长时间偿还，分几期等）。现在我想分析用户过去的贷款历史，并说：“如果我们借给他们X元，他们最可能在Y个分期内，在Z天内还清。”

以下是我的看法：

1.该算法是一个聚类算法，根据用户的还款习惯将所有用户分组。 2.我想使用SOM或K-Means。

那么我的问题是，哪些平台适用于此？到目前为止，我已经看了Mahout。

- Ngetha

1

这取决于您需要处理多少数据以及可以等待结果多长时间。有时使用Knime或Rapidminer（具有良好用户界面的开源数据挖掘应用程序）可以更快地获得结果，而不是为Mahout找到足够的机器+进行配置+调整... - Skarab

5个回答

2

RapidMiner - 社区版免费提供 - 易于使用 - 精美的可视化效果

http://rapid-i.com/content/view/181/190/

- johndotnet

0

另一个不错的库是 scikits.learn，这是一个专为Python程序员打造的机器学习库。

- Andrea Spadaccini

0

关于这个主题有一本非常棒的书 - Toby Segaran 的 "Programming Collective Intelligence"。它讨论了不同的机器学习算法、聚类等内容，还包括了有用的库和示例代码的链接。

- Laurynas

0

为什么要聚类？这似乎不是聚类问题。你可以将聚类分析作为预处理阶段来区分几组用户（或者你可以省略此阶段），但然后你需要进行某种数字预测：分期付款和天数都是数字，那么你如何通过聚类得到这些数字呢？

我建议你使用回归来完成这个任务。线性回归应该能够满足你的需求。如果依赖变量（分期付款和天数）非线性地依赖于其他属性，你可以尝试多项式回归或甚至像M5'这样的算法，首先构建决策树，然后在该树的每个叶子节点上添加回归模型。

如果你有非数字属性，也可以尝试使用分类 - 在这种情况下，你需要手动创建可能的类别（例如，分期付款数量：从3到5个，从6到10个等），然后使用任何分类算法（C4.5、SVM、朴素贝叶斯等）。

实际上，我认为你没有大量的数据。我相信如果总共少于50Mb，那么就没有必要使用像Mahout这样的怪物，它们是为处理非常大量的数据而设计的。您可以使用Weka或RapidMiner来完成此任务。即使它们不能使用默认配置处理您的数据，只需增加JVM的内存，在99％的情况下它们将正常运行。

- ffriend

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mikera · Accepted Answer

值得一看的是Weka - 这是一个相当成熟的开源工具包，其中包含许多机器学习算法，包括聚类。请点击此处了解更多信息。