84得票16回答
如何检查Spark的版本

如标题所述,我该如何知道在CentOS中安装了哪个版本的Spark? 当前系统已安装cdh5.1.0。

8得票1回答
使用Cloudera Manager无法安装Hadoop

我正在尝试使用Cloudera Manager 5.9在单个虚拟机中(为了简便)设置Hadoop集群。以下是我的环境详细信息: Host OS -> Windows 10 Virtualization software -> Virtual box 5.1.10 Guest OS...

8得票1回答
使用便携式二进制文件运行Impala集群

我正在评估多个大数据工具,其中之一当然是Impala。 我想通过在群集节点上手动启动进程来启动Impala集群。就像我目前为Spark、H2O、Presto和Dask所做的那样,我想获取二进制文件,将其复制到节点,编辑配置,并从shell上的节点启动服务。这非常有效,升级也很简单,需要时我可以...

7得票1回答
在Hive中,是否可以在group by之后连接字符串字段?

我正在评估Hive,并需要在group by之后进行一些字符串字段的拼接。我发现了一个名为“concat_ws”的函数,但看起来我必须明确列出要连接的所有值。我想知道我是否可以在Hive中使用concat_ws做类似这样的事情。这里有一个例子。所以我有一个名为“my_table”的表,它有两个...

10得票2回答
Datastax Cassandra驱动程序抛出CodecNotFoundException异常

以下是确切的异常:com.datastax.driver.core.exceptions.CodecNotFoundException: Codec not found for requested operation: [varchar <-> java.math.BigDecimal]...

7得票4回答
如何更改CDH使用的Java版本

我目前在CentOS 6.5上安装了CDH 5和java jdk1.7,现在我想让CDH使用jdk1.8。 我知道Java 1.8不是CDH的推荐版本,但这只是一个测试集群,所以没关系。 我已经从Oracle的网站上使用RPM安装了Java 1.7和Java 1.8,所以现在两个版本的Ja...

8得票1回答
从HDFS中删除文件并不能释放磁盘空间

在将我们的小型Cloudera Hadoop集群升级到CDH 5之后,删除文件不再释放可用存储空间。即使我们删除的数据比添加的数据多,文件系统仍在填充。 集群设置 我们在物理专用硬件上运行一个四节点集群,总存储容量约为110 TB。 4月3日,我们将CDH软件从5.0.0-beta2版本升...

8得票1回答
如何停止由Hive启动的MapReduce作业?

我现在使用的是CDH 5.1。它通过YARN启动正常的Hadoop作业,但hive仍然使用mapred。有时一个大查询会卡很久,我想把它杀掉。 我可以通过JobTracker web控制台找到这个大作业,但它没有提供任何按钮来杀死它。 另一种方法是通过命令行来杀死作业。然而,我无法通过命令...

37得票10回答
无法使用Spark从HDFS读取文件

我使用Cloudera Manager安装了Cloudera CDH 5。 我可以轻松地进行hadoop fs -ls /input/war-and-peace.txt hadoop fs -cat /input/war-and-peace.txt 这个命令将会在控制台上打印整个文本文件。现...

8得票3回答
Hadoop Namenode端口正在使用。

这实际上是一个备用的HA名称节点。它使用与主要节点相同的设置进行配置,并且成功运行了hdfs namenode -bootstrapStandby。它开始在配置文件中定义的标准HTTP端口50070上启动: <property> <name>dfs.namenod...