机器学习的真实世界应用案例有哪些?

8

最近我在Coursera上学习了Andrew Ng教授的机器学习课程。通过这门课程,我了解了机器学习算法的基础知识,但是我有以下问题:

  • 在哪里可以找到真实世界的机器学习用例示例?

  • 工业/生产中使用哪些工具或框架进行机器学习项目?

  • 如何在生产中使用或部署机器学习模型?

  • 如何成为数据科学家?或者下一步该做什么?

任何建议、书籍、课程或教程链接都将不胜感激。

1个回答

15
恭喜您完成了Andrew Ng的机器学习课程,我也很久以前完成了这门精彩的课程。 无论如何,我会一一回答您的问题,尽管有一些问题是相互关联的。 问题1:在哪里可以找到真实世界中的机器学习用例示例?
以下是一些链接,您可以在其中找到有实际应用的机器学习教程:

Q-2) 机器学习项目在工业/生产中使用哪些工具或框架?

在工业水平上使用了各种各样的工具或框架,例如:

机器学习:

  • R (现在主要用于学术界)
  • Python(Sci-kit learn)
  • GraphLab
  • Apache Mahout
  • Spark MLlib
  • H20

深度学习:

  • Tensorflow和Keras
  • Mxnet
  • Pytorch
  • DeepLearning4j
  • Analytics Zoo(主要用于使用spark进行大数据深度学习)

虽然R、Scikit learn、GraphLab在单机上表现出色,是数据科学家或机器学习从业者的最受欢迎的选择,但Mahout、H20和最近的Spark(MLlib)在这个大数据时代获得了很高的人气,因为您想要在无法放入单个计算机的大型数据集上进行机器学习。

此外,还有一些其他工具,如Weka、Rapid Miner,用于基于GUI的机器学习工作流程。

选择这个工具或框架真的取决于项目需求、团队成员对工具/语言的掌握程度,以及开发的便捷性和部署的可扩展性。

Q-3) 机器学习模型如何在生产中使用或部署?

在生产环境中,你需要先构建一个模型,验证和评估该模型,然后将该模型部署为Web/REST服务供其他应用程序/服务使用。部署机器学习模型取决于很多因素,例如:
  • 模型是离线训练的还是在线学习的?
  • 您将多久重新训练一次您的模型?
  • 如何测试您的模型的新版本?- A/B测试或Bandit变量。
  • 除了其他通用事项外 - 延迟,吞吐量,数据输入/输出格式等。
有一些基于云的机器学习服务提供商,例如Azure ML(https://studio.azureml.net/)和BigML(https://bigml.com/)等,您可以上传数据集,进行一些数据处理,训练|验证|评估您的机器学习模型,然后最终将其部署为云中的Web服务。
现在所有主要的云平台(aws,google cloud,azure)都提供了机器学习平台,在这里您可以构建自己的模型,评估它们,最后将其部署到云中。它使您能够使用几乎所有主要的机器学习或深度学习框架来构建模型,并根据您的要求为您提供灵活性以部署(服务器/容器类型,推理/预测服务器数量等)。
Amazon SageMaker:
[+] https://aws.amazon.com/sagemaker/ Google Cloud Machine Learning (ML) Engine:
[+] https://cloud.google.com/ml-engine/ Q-4)如何成为数据科学家?或者说我接下来该怎么做?
这是一百万美元的问题,也是许多人在谷歌上搜索的问题..哈哈..基于我的知识,我将尝试给您一个简短而简洁的答案。首先,数据科学是一个更广泛的研究领域,包括以下常见步骤:
  • 业务理解或问题阶段
  • 数据收集或获取
  • 数据处理和准备
  • 模型构建
  • 验证和评估

除此之外,您还需要进行模型重新训练,以根据数据变化性调整自己,或者您可以部署在线学习模型(它将根据其所看到的数据自适应)。

但是,任何人成为数据科学家/机器学习从业者的基本要素是对数据的好奇心(即了解数据并从中找到有价值的知识)。成为数据科学家没有捷径,也没有任何课程可以让您一夜之间成为数据科学家。

在公司的日常工作中,数据科学家的预定义角色/范围并不存在。不同的行业或公司根据其业务问题为数据科学家提供自己的工作要求/描述。

一个优秀而多才多艺的数据科学家必须具备以下技能,才能在各个行业中自信地持续发展并取得成功:


最好的方法是玩弄数据或做一些实际项目。 许多真实世界的数据集公开可用,您可以选择自己感兴趣的数据集。此外,您可以通过参加Kaggle的机器学习和数据科学竞赛来测试自己的技能和专业知识。
为了获得有关数据科学的一些知识,以及进行一些实践练习,您可以尝试在线课程,例如:

https://www.edx.org/course/introduction-computational-thinking-data-mitx-6-00-2x-2

https://www.edx.org/course/data-science-machine-learning-essentials-microsoft-dat203x


https://github.com/niektuytel/Machine_Learning(可能也很有用) - niek tuytel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接