使用便携式二进制文件运行Impala集群

8

我正在评估多个大数据工具,其中之一当然是Impala。
我想通过在群集节点上手动启动进程来启动Impala集群。就像我目前为Spark、H2O、Presto和Dask所做的那样,我想获取二进制文件,将其复制到节点,编辑配置,并从shell上的节点启动服务。这非常有效,升级也很简单,需要时我可以轻松地移动到更大/不同的集群。不幸的是,我找不到有关如何从shell启动所需服务(Catalog Server、StateStore和守护程序)的正确方法的资源。
我认为这是一个明显的任务,但只是找不到一个合适的示例来跟随,所以我的问题是如何通过调用Impala二进制文件从shell启动Impala集群?


1
请问官方Apache网站上的“Starting Impala”部分怎么样?http://www.cloudera.com/documentation/enterprise/latest/topics/impala_processes.html#starting_via_cmdline - Samson Scharfrichter
免责声明:我从未尝试过独立安装或手动启动。Cloudera Manager 做了相当不错的工作,管理整个系统(并在守护进程崩溃时自动重新启动 -- 这本身就是一个有趣的经历,我已经有20年没见到可怕的 Unix SEGV 错误了!) - Samson Scharfrichter
1
@SamsonScharfrichter 这似乎与我的问题无关。如果不清楚,我可以添加如何运行Spark、H2O、Presto或Dask的示例。只需针对已下载和解压缩的二进制文件执行shell命令。没有安装或操作系统级别的服务。我同意Cloudera Manager做了一个不错的工作,但我需要在各种环境中运行各种版本,重新安装impala/CDH,升级、降级似乎不是一种可行的方法。 - jangorecki
1个回答

2
我猜这就是您要找的: http://www.cloudera.com/documentation/enterprise/5-5-x/topics/impala_processes.html#starting_via_cmdline 更新1: 您可以从以下链接中选择所需的信息: http://doc.mapr.com/plugins/servlet/mobile#content/view/28869628 其中包含了在mapr上构建github的impala的步骤。
更新2: 要构建Impala,请查看以下链接: https://github.com/cloudera/Impala/wiki/Build-prerequisites https://github.com/cloudera/Impala/wiki/How-to-build-Impala https://cwiki.apache.org/confluence/display/IMPALA/Building+Impala 更新3: 对于可移植性的专家建议,请联系: Impala开发人员:dev@impala.incubator.apache.org 引用自:http://impala.apache.org/community.html 暂时,您可以考虑为现成的Linux生产环境构建二进制文件。
对于您的情况,以下是一些有用的链接: https://cwiki.apache.org/confluence/display/IMPALA/Tips+for+Faster+Impala+Builds https://cwiki.apache.org/confluence/display/IMPALA/Building+native-toolchain+from+scratch+and+using+with+Impala

感谢Marco的回答,现在这是一个有洞察力的回答,但并不是很实用。构建impala源代码会影响其性能吗?整个重点是将Impala添加到“易于”再现基准db-benchmark中,因此安装CDH或从源代码构建都无法满足我所需的可移植性。 - jangorecki
1
@jangorecki:虽然我个人没有尝试过从源代码构建,但我认为这不会对其性能产生影响(因为它主要与集群配置、资源和负载有关)。我猜想你想实现的通用可移植性是不切实际的,因为存在需要机器本地编译器创建相应二进制文件的C++组件。 - Marco99
1
@jangorecki: 你是否有关于实现通用可移植性的其他建议?如果有,请分享。 - Marco99

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接