10得票2回答
Datastax Cassandra驱动程序抛出CodecNotFoundException异常

以下是确切的异常:com.datastax.driver.core.exceptions.CodecNotFoundException: Codec not found for requested operation: [varchar <-> java.math.BigDecimal]...

37得票10回答
无法使用Spark从HDFS读取文件

我使用Cloudera Manager安装了Cloudera CDH 5。 我可以轻松地进行hadoop fs -ls /input/war-and-peace.txt hadoop fs -cat /input/war-and-peace.txt 这个命令将会在控制台上打印整个文本文件。现...

7得票4回答
如何更改CDH使用的Java版本

我目前在CentOS 6.5上安装了CDH 5和java jdk1.7,现在我想让CDH使用jdk1.8。 我知道Java 1.8不是CDH的推荐版本,但这只是一个测试集群,所以没关系。 我已经从Oracle的网站上使用RPM安装了Java 1.7和Java 1.8,所以现在两个版本的Ja...

8得票1回答
在CDH 5.4中进行HDFS加密时,无法找到关键字为dfs.encryption.key.provider.uri的URI以创建密钥提供程序。

CDH版本:CDH5.4.5 问题:在使用Hadoop CDH 5.4中提供的KMS启用HDFS加密时,将文件放入加密区域时出现错误。 步骤: Hadoop加密步骤如下: Creating a key [SUCCESS] [tester@master ~]$ hadoop key ...

12得票4回答
在YARN集群上进行PySpark分布式处理

我在一个Cloudera CDH5.3集群上运行Spark,使用YARN作为资源管理器。 我正在使用Python(PySpark)开发Spark应用程序。 我可以提交作业并成功运行,但它们似乎从未在多台机器上运行(只在我提交的本地机器上运行)。 我尝试了各种选项,比如将--deploy-m...

12得票1回答
如何高效地更新Impala表,当表的文件非常频繁地被修改时。

我们有一个基于Hadoop的解决方案(CDH 5.15),在某些目录下我们会得到新的HDFS文件。在这些目录的顶部,我们有4-5个Impala表(2.1)。将文件写入HDFS的过程是Spark Structured Streaming (2.3.1)。 现在,我们在文件写入HDFS时运行一些...

11得票1回答
在连接表时,Hive查询出现错误。

使用下面的HIVE查询,我无法通过相等性检查。我有3个表,想要将这些表连接起来。我尝试了以下方法,但是遇到错误:FAILED: Error in semantic analysis: Line 3:40 Both left and right aliases encountered in JO...

8得票1回答
使用便携式二进制文件运行Impala集群

我正在评估多个大数据工具,其中之一当然是Impala。 我想通过在群集节点上手动启动进程来启动Impala集群。就像我目前为Spark、H2O、Presto和Dask所做的那样,我想获取二进制文件,将其复制到节点,编辑配置,并从shell上的节点启动服务。这非常有效,升级也很简单,需要时我可以...

7得票1回答
在Hive中,是否可以在group by之后连接字符串字段?

我正在评估Hive,并需要在group by之后进行一些字符串字段的拼接。我发现了一个名为“concat_ws”的函数,但看起来我必须明确列出要连接的所有值。我想知道我是否可以在Hive中使用concat_ws做类似这样的事情。这里有一个例子。所以我有一个名为“my_table”的表,它有两个...

12得票14回答
配置错误:namenode地址dfs.namenode.rpc-address未配置。

当我尝试启动一个DataNode时,我遇到了这个错误。据我所读,RPC参数仅用于HA配置,而我没有设置(我想)。 2014-05-18 18:05:00,589 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:shutd...