14得票1回答
Spark:读取文本文件后的重新分区策略

我是这样启动我的集群的: /usr/lib/spark/bin/spark-submit --class MyClass --master yarn-cluster--num-executors 3 --driver-memory 10g --executor-memory 10g --ex...

13得票1回答
Spark: 持久化和重分区顺序

我有以下代码:val data = input.map{... }.persist(StorageLevel.MEMORY_ONLY_SER).repartition(2000) 我想知道如果我先重新分区会有什么区别,比如这样:val data = input.map{... }.repart...

13得票8回答
字符串分割的所有方法

我正在尝试找到一个高效的算法,以获取将字符串分割成所有可能方式 例如,对于给定的字符串 'abcd' => 'a' 'bcd' 'a' 'b' 'cd' 'a' 'b' 'c' 'd' 'ab' 'cd' 'ab' 'c' 'd' 'abc' 'd' 'a', 'bc', 'd 欢迎使用任...

13得票1回答
使用fdisk更改分区时出现警告,如“分区#x包含ext4签名”。

我正在缩小分区大小,使用 #Reduce Partition Size fsck -f /dev/sdb2 resize2fs /dev/sdb2 -M -p #Limit Partion fdisk /dev/sdb ... #Now I'm changing the Partition ...

12得票2回答
如何在Oracle中更改现有表以创建范围分区

我有一个包含10年数据的现有数据表(我已经拿到了数据转储)。 我想根据表内的一个日期键列对现有表进行范围分区。 我看到的大部分示例都是使用CREATE TABLE..PARTITION BY RANGE...来添加新分区。但我的表是现有表。 我想我需要一些ALTER语句。ALTER TABLE...

12得票4回答
如何将安卓分区制作成图像并传输至电脑

我正在尝试将手机内置存储卡的分区直接备份(使用dd命令制作映像文件)到我的个人电脑。我使用的操作系统是Linux,手机型号为Nexus 4。

12得票1回答
Spark将数据写入磁盘,使得文件数少于分区数。

我们能否将数据写入100个文件中,每个文件有10个分区? 我知道我们可以使用repartition或coalesce来减少分区数量。但我见过一些hadoop生成的avro数据的分区数量远高于文件数量。

11得票2回答
Hive不能读取由Spark生成的分区parquet文件。

我在使用Spark生成的分区parquet文件在Hive中读取时遇到了问题。我能够在Hive中创建外部表,但是当我尝试选择几行时,Hive仅返回一个带有零行的“OK”消息。 我能够在Spark中正确读取分区parquet文件,因此我认为它们是正确生成的。 当我在Hive中创建一个没有分区的外...

11得票6回答
Hive中分区表数据无法加载

我将尝试为我的表创建分区,以便更新一个值。 这是我的样本数据。 1,Anne,Admin,50000,A 2,Gokul,Admin,50000,B 3,Janet,Sales,60000,A 我想要把Janet的部门更新为B。 为此,我创建了一个以部门作为分区的表。 创建外部表...

11得票2回答
如何在不产生.rdd成本的情况下检查Spark DataFrame的分区数

关于如何获取n个RDD或DataFrame的分区数量,有许多问题:通常的答案是: rdd.getNumPartitions 或者 df.rdd.getNumPartitions 很遗憾,对于DataFrame来说,这是一个昂贵的操作,因为 df.rdd 需要将DataF...