27得票2回答
在Apache Spark中,为什么RDD.union不保留分区器?

众所周知,Spark中的分区器对于任何“宽”操作都有很大的性能影响,因此通常需要在操作中进行自定义。我正在尝试以下代码:val rdd1 = sc.parallelize(1 to 50).keyBy(_ % 10) .partitionBy(new HashPartitioner...

24得票4回答
Hadoop MapReduce中分组比较器的作用是什么?

我想知道在MapReduce的二次排序中为什么要使用分组比较器。 根据《权威指南》中关于二次排序的例子,我们希望键的排序顺序先按年份升序排列,然后再按温度降序排列。1900 35°C 1900 34°C 1900 34°C ... 1901 36°C 1901 35°C 通过设置一个按照键的...

22得票5回答
Hadoop MapReduce二次排序

有人能解释一下Hadoop中二次排序是如何工作的吗? 为什么要使用GroupingComparator以及它在Hadoop中是如何工作的? 我阅读了下面给出的链接,对组合比较器的工作方式产生了疑问。 有人能解释一下组合比较器是如何工作的吗? http://www.bigdataspeak....

18得票3回答
Hadoop 中的二次排序

我正在开发一个 hadoop 项目,在访问了许多博客并阅读了文档后,我意识到我需要使用 hadoop 框架提供的二次排序功能。 我的输入格式如下: DESC(String) Price(Integer) and some other Text 我希望在reducer中的值按价格降序排列...

12得票5回答
Hadoop中数据是如何分割的

Hadoop是否基于程序中设置的映射器数量来切分数据?也就是说,如果有一个大小为500MB的数据集,如果映射器数为200(假设Hadoop集群同时允许200个映射器),则每个映射器会被分配2.5MB的数据吗? 此外,所有映射器是否都同时运行,还是有一些可能会串行运行?

11得票5回答
Hadoop fs -du -h按大小排序,单位为M、G、T、P、E、Z、Y。

我正在运行这个命令 -- sudo -u hdfs hadoop fs -du -h /user | sort -nr 输出结果未按照吉字节、千兆字节和吉比特排序。 我找到了这个命令 - hdfs dfs -du -s /foo/bar/*tobedeleted | sort ...

10得票1回答
Spark:你能在输出文件中包含分区列吗?

我正在使用Spark将数据写入分区。如果给定一个包含两列(foo, bar)的数据集,如果我执行df.write.mode("overwrite").format("csv").partitionBy("foo").save("/tmp/output"),那么输出结果如下: /tmp/out...

8得票1回答
Hive:当向分区表插入数据时,大多数情况下,Hive会对分区键列进行双重URL编码。

我创建了一个分区表: create table t1 ( amount double) partitioned by ( events_partition_key string) stored as paquet; 在tmp_table中添加了一些数据,其中列'events_parti...

8得票4回答
在Hive中,我能否通过“CREATE TABLE AS SELECT…”创建的表进行聚类/分桶操作?

我正在尝试在Hive中创建一个表 CREATE TABLE BUCKET_TABLE AS SELECT a.* FROM TABLE1 a LEFT JOIN TABLE2 b ON (a.key=b.key) WHERE b.key IS NUll CLUSTERED BY (key)...

7得票1回答
在Pyspark中如何检查Spark分区中特定分区数据

我在pyspark中从我的hive表创建了两个数据框,如下所示: data1 = spark.sql(""" SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE from MODEL_TABLE1 where COUNTRY_COD...