得票数最多 'hadoop-partitioning' 问题

关联标签

27得票2回答

众所周知，Spark中的分区器对于任何“宽”操作都有很大的性能影响，因此通常需要在操作中进行自定义。我正在尝试以下代码：val rdd1 = sc.parallelize(1 to 50).keyBy(_ % 10) .partitionBy(new HashPartitioner...

24得票4回答

我想知道在MapReduce的二次排序中为什么要使用分组比较器。根据《权威指南》中关于二次排序的例子，我们希望键的排序顺序先按年份升序排列，然后再按温度降序排列。1900 35°C 1900 34°C 1900 34°C ... 1901 36°C 1901 35°C 通过设置一个按照键的...

22得票5回答

有人能解释一下Hadoop中二次排序是如何工作的吗？为什么要使用GroupingComparator以及它在Hadoop中是如何工作的？我阅读了下面给出的链接，对组合比较器的工作方式产生了疑问。有人能解释一下组合比较器是如何工作的吗？ http://www.bigdataspeak....

18得票3回答

我正在开发一个 hadoop 项目，在访问了许多博客并阅读了文档后，我意识到我需要使用 hadoop 框架提供的二次排序功能。我的输入格式如下： DESC(String) Price(Integer) and some other Text 我希望在reducer中的值按价格降序排列...

12得票5回答

Hadoop是否基于程序中设置的映射器数量来切分数据？也就是说，如果有一个大小为500MB的数据集，如果映射器数为200(假设Hadoop集群同时允许200个映射器)，则每个映射器会被分配2.5MB的数据吗？此外，所有映射器是否都同时运行，还是有一些可能会串行运行？

11得票5回答

我正在运行这个命令 -- sudo -u hdfs hadoop fs -du -h /user | sort -nr 输出结果未按照吉字节、千兆字节和吉比特排序。我找到了这个命令 - hdfs dfs -du -s /foo/bar/*tobedeleted | sort ...

10得票1回答

我正在使用Spark将数据写入分区。如果给定一个包含两列(foo, bar)的数据集，如果我执行df.write.mode("overwrite").format("csv").partitionBy("foo").save("/tmp/output")，那么输出结果如下： /tmp/out...

8得票1回答

我创建了一个分区表： create table t1 ( amount double) partitioned by ( events_partition_key string) stored as paquet; 在tmp_table中添加了一些数据，其中列'events_parti...

8得票4回答

我正在尝试在Hive中创建一个表 CREATE TABLE BUCKET_TABLE AS SELECT a.* FROM TABLE1 a LEFT JOIN TABLE2 b ON (a.key=b.key) WHERE b.key IS NUll CLUSTERED BY (key)...

7得票1回答

我在pyspark中从我的hive表创建了两个数据框，如下所示： data1 = spark.sql(""" SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE from MODEL_TABLE1 where COUNTRY_COD...