最新 'cloudera-cdh' 问题 - 第3页

关联标签

10得票2回答

Datastax Cassandra驱动程序抛出CodecNotFoundException异常

以下是确切的异常：com.datastax.driver.core.exceptions.CodecNotFoundException: Codec not found for requested operation: [varchar <-> java.math.BigDecimal]...

cassandradatastax-enterprisecloudera-cdhdatastax-java-driverspark-cassandra-connector

37得票10回答

无法使用Spark从HDFS读取文件

我使用Cloudera Manager安装了Cloudera CDH 5。我可以轻松地进行hadoop fs -ls /input/war-and-peace.txt hadoop fs -cat /input/war-and-peace.txt 这个命令将会在控制台上打印整个文本文件。现...

hadoopapache-sparkcloudera-cdh

7得票4回答

如何更改CDH使用的Java版本

我目前在CentOS 6.5上安装了CDH 5和java jdk1.7，现在我想让CDH使用jdk1.8。我知道Java 1.8不是CDH的推荐版本，但这只是一个测试集群，所以没关系。我已经从Oracle的网站上使用RPM安装了Java 1.7和Java 1.8，所以现在两个版本的Ja...

javahadoopcloudera-cdh

8得票1回答

在CDH 5.4中进行HDFS加密时，无法找到关键字为dfs.encryption.key.provider.uri的URI以创建密钥提供程序。

CDH版本：CDH5.4.5 问题：在使用Hadoop CDH 5.4中提供的KMS启用HDFS加密时，将文件放入加密区域时出现错误。步骤： Hadoop加密步骤如下： Creating a key [SUCCESS] [tester@master ~]$ hadoop key ...

hadoopencryptioncopyhdfscloudera-cdh

12得票4回答

在YARN集群上进行PySpark分布式处理

我在一个Cloudera CDH5.3集群上运行Spark，使用YARN作为资源管理器。我正在使用Python（PySpark）开发Spark应用程序。我可以提交作业并成功运行，但它们似乎从未在多台机器上运行（只在我提交的本地机器上运行）。我尝试了各种选项，比如将--deploy-m...

apache-sparkhadoop-yarncloudera-cdhpyspark

12得票1回答

如何高效地更新Impala表，当表的文件非常频繁地被修改时。

我们有一个基于Hadoop的解决方案（CDH 5.15），在某些目录下我们会得到新的HDFS文件。在这些目录的顶部，我们有4-5个Impala表（2.1）。将文件写入HDFS的过程是Spark Structured Streaming (2.3.1)。现在，我们在文件写入HDFS时运行一些...

hadoopimpalaspark-structured-streamingcloudera-cdh

11得票1回答

在连接表时，Hive查询出现错误。

使用下面的HIVE查询，我无法通过相等性检查。我有3个表，想要将这些表连接起来。我尝试了以下方法，但是遇到错误：FAILED: Error in semantic analysis: Line 3:40 Both left and right aliases encountered in JO...

joinhadoophivehiveqlcloudera-cdh

8得票1回答

使用便携式二进制文件运行Impala集群

我正在评估多个大数据工具，其中之一当然是Impala。我想通过在群集节点上手动启动进程来启动Impala集群。就像我目前为Spark、H2O、Presto和Dask所做的那样，我想获取二进制文件，将其复制到节点，编辑配置，并从shell上的节点启动服务。这非常有效，升级也很简单，需要时我可以...

cloudera-cdhimpalabigdata

7得票1回答

在Hive中，是否可以在group by之后连接字符串字段？

我正在评估Hive，并需要在group by之后进行一些字符串字段的拼接。我发现了一个名为“concat_ws”的函数，但看起来我必须明确列出要连接的所有值。我想知道我是否可以在Hive中使用concat_ws做类似这样的事情。这里有一个例子。所以我有一个名为“my_table”的表，它有两个...

hivecloudera-cdh

12得票14回答

配置错误：namenode地址dfs.namenode.rpc-address未配置。

当我尝试启动一个DataNode时，我遇到了这个错误。据我所读，RPC参数仅用于HA配置，而我没有设置（我想）。 2014-05-18 18:05:00,589 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:shutd...

hadoophdfscloudera-cdh