13得票1回答
Spark: 持久化和重分区顺序

我有以下代码:val data = input.map{... }.persist(StorageLevel.MEMORY_ONLY_SER).repartition(2000) 我想知道如果我先重新分区会有什么区别,比如这样:val data = input.map{... }.repart...

12得票1回答
Spark将数据写入磁盘,使得文件数少于分区数。

我们能否将数据写入100个文件中,每个文件有10个分区? 我知道我们可以使用repartition或coalesce来减少分区数量。但我见过一些hadoop生成的avro数据的分区数量远高于文件数量。

9得票4回答
使用正则表达式在Python中分割字符串

我将使用Python的partition和正则表达式来清理文本字符串。举个例子: testString = 'Tre Bröders Väg 6 2tr' sep = '[0-9]tr' head,sep,tail = testString.partition(sep) head >&...

7得票4回答
当只有相等性可用时进行排序

假设我们有一个键值对向量: std::vector<std::pair<A,B>> v; 仅对类型A定义了相等性: bool operator==(A const & lhs, A const & rhs) { ... } 你如何对它进行排序...

20得票2回答
如何查看表中分区的信息?

我该如何查看表的分区详情,比如表中有多少个分区以及每个分区的存储大小?

39得票2回答
当文件大小超出Spark主存储器容量时,Spark如何读取大型文件(PB级别)?

在这些情况下,大文件会发生什么? 1) Spark从NameNode获取数据的位置。如果数据大小超过了NameNode提供的信息,那么Spark会在此时停止吗? 2) Spark根据数据节点块大小对数据进行分区,但是所有数据无法存储到主内存中。 在这里,我们不使用StorageLevel。...

20得票2回答
在Hive中创建表后添加分区

我创建了一个非分区表并将数据加载到表中,现在我想根据部门添加一个PARTITION到该表中,我可以这样做吗? 如果我这样做: ALTER TABLE Student ADD PARTITION (dept='CSE') location '/test'; 它会给我错误提示:FAILED: Se...

25得票3回答
设备 vs 分区 vs 文件系统 vs 卷:这些概念之间如何相互关联,准确地说?

从Java开发人员的角度来看,这些概念如何相互关联? 我的问题:有人能提供简单准确/普遍接受的定义的解释或链接吗?谢谢。 参考文献,我找到了一些但对我不清楚: http://arxiv.org/ftp/cs/papers/0508/0508063.pdf http://arxiv.org...

12得票4回答
如何将安卓分区制作成图像并传输至电脑

我正在尝试将手机内置存储卡的分区直接备份(使用dd命令制作映像文件)到我的个人电脑。我使用的操作系统是Linux,手机型号为Nexus 4。

7得票1回答
MySql分区表如何使用索引?

我有一张包含时间信息的表格,因此该表格包含像年、月、日、小时等列。 由于表格跨越多年且很大,所以我决定对该表格进行分区并开始学习Mysql分区,但还有几个问题需要解答。 如果有人能够帮助我理解如何让分区和索引一起工作,我将不胜感激。 如果在年份列上创建分区并且该列上也有一个索引,那么分区和...