在开始之前,我想描述一下我的当前位置以及我想要实现的目标。
我是一名从事机器学习研究的人员。到目前为止,我已经学习了几门涵盖机器学习算法和社交网络分析的理论课程,因此掌握了一些对实现机器学习算法和处理真实数据有用的理论概念。
在简单的例子中,这些算法表现良好且运行时间可接受,但如果尝试在我的个人电脑上运行算法处理大数据时会遇到问题。关于软件方面,我有足够的经验来实现任何文章中的算法,或者使用任何语言或IDE(目前我已经使用过Matlab、Java与Eclipse、.NET...)自己设计算法,但我对设置基础设施的经验不多。我已经开始学习Hadoop、NoSQL数据库等,但考虑到学习时间的限制,我不确定哪种策略是最好的。 最终目标是能够建立一个工作平台,用于分析大数据,重点是实现我自己的机器学习算法,并将所有内容整合到生产环境中,可以通过处理大数据来解决有用的问题。 由于主要关注的是实现机器学习算法,我想问一下是否存在任何现有的运行平台,提供足够的CPU资源来处理大数据,上传自己的算法,并简单地处理数据而不需要考虑分布式处理。
无论这样的平台是否存在,我都希望能够获得一个足够全面的画面,以便能够与团队合作,根据特定客户需求开发整个系统。例如,零售商希望分析每日购买情况,因此所有每日记录都需要上传到某个基础设施中,该基础设施必须足够强大,能够使用定制的机器学习算法处理数据。
简单来说,如何设计一个针对现实问题的定制数据挖掘解决方案,主要关注机器学习算法,并将其投入生产,如果可能的话,利用现有基础设施;如果不行,则设计分布式系统(使用Hadoop或其他框架)。
我是一名从事机器学习研究的人员。到目前为止,我已经学习了几门涵盖机器学习算法和社交网络分析的理论课程,因此掌握了一些对实现机器学习算法和处理真实数据有用的理论概念。
在简单的例子中,这些算法表现良好且运行时间可接受,但如果尝试在我的个人电脑上运行算法处理大数据时会遇到问题。关于软件方面,我有足够的经验来实现任何文章中的算法,或者使用任何语言或IDE(目前我已经使用过Matlab、Java与Eclipse、.NET...)自己设计算法,但我对设置基础设施的经验不多。我已经开始学习Hadoop、NoSQL数据库等,但考虑到学习时间的限制,我不确定哪种策略是最好的。 最终目标是能够建立一个工作平台,用于分析大数据,重点是实现我自己的机器学习算法,并将所有内容整合到生产环境中,可以通过处理大数据来解决有用的问题。 由于主要关注的是实现机器学习算法,我想问一下是否存在任何现有的运行平台,提供足够的CPU资源来处理大数据,上传自己的算法,并简单地处理数据而不需要考虑分布式处理。
无论这样的平台是否存在,我都希望能够获得一个足够全面的画面,以便能够与团队合作,根据特定客户需求开发整个系统。例如,零售商希望分析每日购买情况,因此所有每日记录都需要上传到某个基础设施中,该基础设施必须足够强大,能够使用定制的机器学习算法处理数据。
简单来说,如何设计一个针对现实问题的定制数据挖掘解决方案,主要关注机器学习算法,并将其投入生产,如果可能的话,利用现有基础设施;如果不行,则设计分布式系统(使用Hadoop或其他框架)。