52得票14回答
使用sc.textFile("s3n://...")从S3中读取文件的Spark方法

尝试使用spark-shell读取位于S3中的文件:scala> val myRdd = sc.textFile("s3n://myBucket/myFile1.log") lyrics: org.apache.spark.rdd.RDD[String] = s3n://myBucket...

33得票5回答
查找 HDFS 监听的端口号

我想使用完全限定名称(Fully Qualified Names)来访问HDFS,例如:hadoop fs -ls hdfs://machine-name:8020/user 我也可以直接访问HDFS。hadoop fs -ls /user 然而,我正在编写应该在不同发行版(HDP、Cloud...

31得票6回答
如何从HDFS中删除文件?

我刚刚下载了Hortonworks沙盒虚拟机,在里面有版本为2.7.1的Hadoop。我使用了一些文件进行添加。hadoop fs -put /hw1/* /hw1 ...命令。紧接着我通过该命令删除添加的文件,方法是hadoop fs -rm /hw1/* ...执行命令之后,清空回收站,由...

22得票2回答
sqlContext HiveDriver错误,出现SQLException: Method not supported。

我一直尝试使用sqlContext.read.format("jdbc").options(driver="org.apache.hive.jdbc.HiveDriver")将Hive表格导入到Spark,但没有成功。我已经进行了研究并阅读了以下内容:如何从Spark连接到远程Hive服务器,...

19得票2回答
YARN资源管理器上的Spark:YARN容器和Spark执行器之间的关系

我对YARN上的Spark不熟悉,不理解YARN的Containers和Spark的Executors之间的关系。根据yarn-utils.py脚本的结果,我尝试了以下配置,可以用于找到最佳集群配置。 我正在使用的Hadoop集群(HDP 2.4): 1个主节点: CPU:每个CPU...

18得票2回答
执行单词计数MapReduce作业时出现InterruptedException。

我已经在我的机器上安装了Cloudera VM版本5.8。当我执行Word Count MapReduce作业时,它会抛出以下异常。`16/09/06 06:55:49 WARN hdfs.DFSClient: Caught exception java.lang.InterruptedEx...

17得票5回答
如何在Ubuntu 16.04LTS中禁用透明巨型页面(THP)

我正在用三台运行Ubuntu 16.04LTS的VirtualBox虚拟机搭建Ambari集群,但是我遇到了以下警告:The following hosts have Transparent Huge Pages (THP) enabled. THP should be disabled t...

16得票1回答
运行Apache Spark作业时出现“Connection reset by peer”错误

We have two HDP clusters, named A and B. CLUSTER A NODES: - It consists of a total of 20 commodity machines. - There are 20 data nodes. - Nameno...

13得票2回答
Pyhive连接错误:thrift.transport.TTransport.TTransportException:TSocket读取0字节。

我正试图从位于Hive(Hortonworks)的表中获取一些Twitter数据,以在机器学习项目中使用,由于Python3.6不支持pyhs2,因此使用pyhive。以下是我的代码:from pyhive import hive conn = hive.Connection(host='19...

13得票4回答
如何在我的系统中找到Hadoop hdfs目录?

如何在我的系统上找到Hadoop HDFS目录?我需要这个来运行以下命令 -hadoop dfs -copyFromLocal <local-dir> <hdfs-dir> 在这个命令中,我不知道我的HDFS目录。 不确定是否有帮助,但我运行了以下命令并得到了这个输出...