84得票16回答
如何检查Spark的版本

如标题所述,我该如何知道在CentOS中安装了哪个版本的Spark? 当前系统已安装cdh5.1.0。

74得票6回答
Spark: 如何从Spark shell中运行Spark文件

我正在使用CDH 5.2。 我可以使用spark-shell运行命令。 如何运行包含spark命令的文件(file.spark)。 在CDH 5.2中有没有不使用sbt运行/编译Scala程序的方法?

37得票10回答
无法使用Spark从HDFS读取文件

我使用Cloudera Manager安装了Cloudera CDH 5。 我可以轻松地进行hadoop fs -ls /input/war-and-peace.txt hadoop fs -cat /input/war-and-peace.txt 这个命令将会在控制台上打印整个文本文件。现...

14得票4回答
在CDH 5上,Spark找不到用于压缩的LzoCodec类?

我已经在解决这个问题上工作了两天,但仍然找不到解决办法。 问题:我们通过最新的CDH 5安装了Spark,即使我通过cloudera manager中的Parcels安装了HADOOP_LZO,它仍然抱怨丢失了LzoCodec类。我们在CDH 5.0.0-1.cdh5.0.0.p0.47上运...

12得票4回答
在YARN集群上进行PySpark分布式处理

我在一个Cloudera CDH5.3集群上运行Spark,使用YARN作为资源管理器。 我正在使用Python(PySpark)开发Spark应用程序。 我可以提交作业并成功运行,但它们似乎从未在多台机器上运行(只在我提交的本地机器上运行)。 我尝试了各种选项,比如将--deploy-m...

12得票14回答
配置错误:namenode地址dfs.namenode.rpc-address未配置。

当我尝试启动一个DataNode时,我遇到了这个错误。据我所读,RPC参数仅用于HA配置,而我没有设置(我想)。 2014-05-18 18:05:00,589 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:shutd...

12得票1回答
如何高效地更新Impala表,当表的文件非常频繁地被修改时。

我们有一个基于Hadoop的解决方案(CDH 5.15),在某些目录下我们会得到新的HDFS文件。在这些目录的顶部,我们有4-5个Impala表(2.1)。将文件写入HDFS的过程是Spark Structured Streaming (2.3.1)。 现在,我们在文件写入HDFS时运行一些...

11得票1回答
在连接表时,Hive查询出现错误。

使用下面的HIVE查询,我无法通过相等性检查。我有3个表,想要将这些表连接起来。我尝试了以下方法,但是遇到错误:FAILED: Error in semantic analysis: Line 3:40 Both left and right aliases encountered in JO...

11得票1回答
能否使用ETL Informatica Big Data版本(非云端版本)连接Cloudera Impala?

我们正试图在Informatica Big Data版(非云版本)进行概念验证,我发现我们可以使用HDFS、Hive作为源和目标。但我的问题是,Informatica是否连接到Cloudera Impala?如果是这样,我们需要任何额外的连接器吗?我已经进行了全面的研究,以检查是否支持此功能,...

10得票2回答
Datastax Cassandra驱动程序抛出CodecNotFoundException异常

以下是确切的异常:com.datastax.driver.core.exceptions.CodecNotFoundException: Codec not found for requested operation: [varchar <-> java.math.BigDecimal]...