背景(很抱歉这段文字有点长):
我被委派维护一个ETL,它收集各种在线广告数据,每天大约20-30 MB,并将其附加到MySQL表中。外部承包商使用Pentaho Spoon(kitchen,kettle?)构建了ETL。 ETL由大约250个作业和转换(.ktr,.kjb)组成,每个作业和转换都有大约5到25个步骤。在这个庞大的过程中,经常会出现一些问题。我发现编写R脚本进行转换和加载效率更高。实际上,我认为除了与RMySQL(即plyr!)调用之外,ETL可以减少到不到1000行代码。也许Python将用于从Web提取数据。
我的R使用引起了一些阻力。设计ETL的计算机程序员不知道R,因此如果我离开,他们无法提供帮助。此外,大量时间投入到Spoon ETL中。此外,普通人可以更轻松地通过Spoon中的可视化步骤来跟随,而不是通过R脚本。就我而言,我认为我们被ETL所拖累。但是,由于我没有计算机科学背景,所以在这件事上我没有太多发言权。
如果您对以下内容有任何见解,请发表评论。请知道我已经研究了几个月,并阅读了许多意见,但没有像SO通常提供的那样简明可靠。
我被委派维护一个ETL,它收集各种在线广告数据,每天大约20-30 MB,并将其附加到MySQL表中。外部承包商使用Pentaho Spoon(kitchen,kettle?)构建了ETL。 ETL由大约250个作业和转换(.ktr,.kjb)组成,每个作业和转换都有大约5到25个步骤。在这个庞大的过程中,经常会出现一些问题。我发现编写R脚本进行转换和加载效率更高。实际上,我认为除了与RMySQL(即plyr!)调用之外,ETL可以减少到不到1000行代码。也许Python将用于从Web提取数据。
我的R使用引起了一些阻力。设计ETL的计算机程序员不知道R,因此如果我离开,他们无法提供帮助。此外,大量时间投入到Spoon ETL中。此外,普通人可以更轻松地通过Spoon中的可视化步骤来跟随,而不是通过R脚本。就我而言,我认为我们被ETL所拖累。但是,由于我没有计算机科学背景,所以在这件事上我没有太多发言权。
如果您对以下内容有任何见解,请发表评论。请知道我已经研究了几个月,并阅读了许多意见,但没有像SO通常提供的那样简明可靠。
一些公司人士认为 R 不够可扩展。但是我持相反意见,主要是因为其日志记录功能。Spoon 的纯记录输出有限,而所有 R 脚本都可以汇入到每日日志中。在 .ktrs 中修复和避免错误非常繁琐,但通过设置标志和/或搜索 R 日志很容易解决。对此您有何想法?
这引出了一个大问题。Pentaho 这样的 ETL 工具有什么意义?这篇文章Do I need a ETL?让我相信,如果使用 R 或其他所谓的 OOL,那么没有必要使用 Pentaho 等工具。如果是这样,请问是否可以确认一下?我真的需要第二个意见。如果是这样的话,谁会使用 Pentaho 这样的工具呢?只是没有编程背景的人,还是其他人?我在 Stack Overflow 上看到了不少 Pentaho 相关的问题。
更多的人使用 R 而不是 Pentaho,是吗?这篇文章http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html是这样的。老实说,我很惊讶 Pentaho 排名第五,这让我更加怀疑谁会使用 Pentaho,以及我对其在工作环境中使用的疑虑是否合理。
感谢任何回复。我并不是对 Spoon 或 Spoon 用户表示轻蔑;我只是真的很困惑,需要外界的意见。