8得票1回答
从HDFS中删除文件并不能释放磁盘空间

在将我们的小型Cloudera Hadoop集群升级到CDH 5之后,删除文件不再释放可用存储空间。即使我们删除的数据比添加的数据多,文件系统仍在填充。 集群设置 我们在物理专用硬件上运行一个四节点集群,总存储容量约为110 TB。 4月3日,我们将CDH软件从5.0.0-beta2版本升...

8得票1回答
如何停止由Hive启动的MapReduce作业?

我现在使用的是CDH 5.1。它通过YARN启动正常的Hadoop作业,但hive仍然使用mapred。有时一个大查询会卡很久,我想把它杀掉。 我可以通过JobTracker web控制台找到这个大作业,但它没有提供任何按钮来杀死它。 另一种方法是通过命令行来杀死作业。然而,我无法通过命令...

12得票1回答
如何高效地更新Impala表,当表的文件非常频繁地被修改时。

我们有一个基于Hadoop的解决方案(CDH 5.15),在某些目录下我们会得到新的HDFS文件。在这些目录的顶部,我们有4-5个Impala表(2.1)。将文件写入HDFS的过程是Spark Structured Streaming (2.3.1)。 现在,我们在文件写入HDFS时运行一些...

74得票6回答
Spark: 如何从Spark shell中运行Spark文件

我正在使用CDH 5.2。 我可以使用spark-shell运行命令。 如何运行包含spark命令的文件(file.spark)。 在CDH 5.2中有没有不使用sbt运行/编译Scala程序的方法?

7得票1回答
Oozie和作业历史服务器配置问题

问题 我正在尝试安装伪分布式CDH,但不使用CDM。通过控制台一切“正常”。但是,一旦开始使用Hue,尝试使用Pig时就会收到错误。 Hue中显示的错误如下: JA017:无法查找与操作[0000000-160112011607704-oozie-oozi-W@pig]相关联的已启动的...

11得票1回答
在连接表时,Hive查询出现错误。

使用下面的HIVE查询,我无法通过相等性检查。我有3个表,想要将这些表连接起来。我尝试了以下方法,但是遇到错误:FAILED: Error in semantic analysis: Line 3:40 Both left and right aliases encountered in JO...

8得票1回答
YARN不健康的节点

在我们的YARN群集中,占用了80%的空间,我们发现一些yarn nodemanager的状态被标记为UNHEALTHY。在查看日志后,我发现这是因为数据目录的磁盘空间已满90%,导致以下错误: 2015-02-21 08:33:51,590 INFO org.apache.hadoop.y...

11得票1回答
能否使用ETL Informatica Big Data版本(非云端版本)连接Cloudera Impala?

我们正试图在Informatica Big Data版(非云版本)进行概念验证,我发现我们可以使用HDFS、Hive作为源和目标。但我的问题是,Informatica是否连接到Cloudera Impala?如果是这样,我们需要任何额外的连接器吗?我已经进行了全面的研究,以检查是否支持此功能,...

37得票10回答
无法使用Spark从HDFS读取文件

我使用Cloudera Manager安装了Cloudera CDH 5。 我可以轻松地进行hadoop fs -ls /input/war-and-peace.txt hadoop fs -cat /input/war-and-peace.txt 这个命令将会在控制台上打印整个文本文件。现...

8得票1回答
在CDH 5.4中进行HDFS加密时,无法找到关键字为dfs.encryption.key.provider.uri的URI以创建密钥提供程序。

CDH版本:CDH5.4.5 问题:在使用Hadoop CDH 5.4中提供的KMS启用HDFS加密时,将文件放入加密区域时出现错误。 步骤: Hadoop加密步骤如下: Creating a key [SUCCESS] [tester@master ~]$ hadoop key ...