过去三年左右,我每天都使用R语言,其中大部分时间用于机器学习/数据挖掘问题。
在大学期间,我是Matlab的独占用户;那时我认为它是一套非常好的工具/平台。我相信今天它仍然如此。
神经网络工具箱、优化工具箱、统计工具箱和曲线拟合工具箱对于使用MATLAB进行ML/Data Mining工作的人来说都是非常理想(如果不是必需的),但它们都是与基本的MATLAB环境分离的--换句话说,它们必须单独购买。
我关于在R中学习ML/Data Mining的前五名列表:
这涉及到几个方面:首先,一组以
arules 开头的 R 包(可从 CRAN 获取),您可以在
项目主页上找到完整列表(例如 arules、aruluesViz 等)。其次,所有这些包都基于一种数据挖掘技术,称为
Market-Basked Analysis 或
Association Rules。在许多方面,这类算法是数据挖掘的本质——穷尽地遍历大型交易数据库,并在其中的字段(变量或特征)之间查找高于平均水平的关联或相关性。在实践中,您将它们连接到数据源并让它们运行过夜。上述套装中的中心 R 包称为
arules;在 CRAN 包页面上,您将找到有关 arules 包和一般 Association Rules 技术的一些优秀次要来源(R 词汇表中的
vignettes 的链接)。
这本书的最新版本可以以数字形式免费获取。同样在书的网站上(链接如上),ESL使用的所有数据集都可以免费下载。(顺便说一句,我有免费的数字版本;我也从BN.com购买了精装版;数字版本中的所有彩色图都复制到了精装版中)。ESL包含对大多数主要ML模板中至少一个示例的全面介绍--例如,神经网络、SVM、KNN;无监督技术(LDA、PCA、MDS、SOM、聚类)、许多回归的变化、CART、贝叶斯技术,以及模型聚合技术(Boosting、Bagging)和模型调整(正则化)。最后,从CRAN获取随书附带的R软件包(这将节省下载数据集的麻烦)。
CRAN任务视图:机器学习
R可用的3,500多个软件包按领域分为约30个软件包系列或“
Task Views”。机器学习是其中之一。机器学习任务视图包含大约50个软件包。其中一些软件包是核心发行版的一部分,包括e1071(一个庞大的ML软件包,包括相当多的通常的ML类别的工作代码)。
Revolution Analytics Blog
特别关注标记为预测分析的帖子
仔细研究这些代码本身就是R中ML的出色介绍。
最后还有一个我认为很好的资源,但没有进入前5:
发布在博客A Beautiful WWW上