11得票1回答
在Spark中,分区和桶之间有什么区别?

我尝试优化两个Spark数据框之间的连接查询,我们称它们为df1, df2(在共同列“SaleId”上进行连接)。 由于df1非常小(5M),所以我将其广播到Spark集群的各个节点。 而df2非常大(200M行),所以我尝试将其按“SaleId”分桶/分区。 在Spark中,按列分区和按列...

10得票5回答
3D聚类算法

问题陈述: 在三维空间中有超过十亿个点。目标是找到距离小于给定距离 R 的最多邻居点数的前 N 个点。另一个条件是这些前 N 个点之间的距离必须大于 R。这些点的分布不均匀,很常见某些区域包含了大量的点。 目标: 找到一种算法,该算法能够适应许多处理器并且内存需求小。 想法: 由于分...

10得票2回答
将浮点数数组分成相似段(聚类)

我有一个浮点数数组,就像这样:[1.91, 2.87, 3.61, 10.91, 11.91, 12.82, 100.73, 100.71, 101.89, 200] 现在,我想按照这种方式对数组进行分区:[[1.91, 2.87, 3.61] , [10.91, 11.91, 12.82] ...

10得票2回答
哈希与索引的区别

哈希和索引都是用于根据预定义的公式对数据进行分区。但我不理解两者之间的关键区别。 就像在哈希中,我们基于某个键值对将数据划分一样,在索引中我们也是基于一些预定义的值划分数据。 请问有没有人能帮我理解哈希和索引之间的区别,并如何决定使用哪种方法。

9得票4回答
Python:生成整数分割

我需要生成给定整数的所有分区。我发现Jerome Kelleher提出的这个算法被认为是最有效的: def accelAsc(n): a = [0 for i in range(n + 1)] k = 1 a[0] = 0 y = n - 1 whil...

7得票3回答
Azure Data Lake 中的 U-SQL 输出

如果我不知道表中包含多少个不同的键值,是否有可能根据列值自动将表分成多个文件?文件名是否可以包含键值?

7得票1回答
了解中位数选择算法?

我目前在业余时间学习算法,但在学习第三章select()算法时遇到了以下问题。 我知道如果我使用从A到n个数字的数组,我可以使用select()算法来找到中位数(第n/2小的数字)。 1) 但这是我难以理解的部分。例如,A = [3, 7, 5, 1, 4, 2, 6, 2],假设这是该数...

7得票2回答
枚举长度为N的一维数组的所有k分区?

这似乎是一个简单的需求,但是谷歌并不是我的好朋友,因为“partition”在数据库和文件系统空间中得分很高。 我需要枚举一个包含N个值(N是常数)的数组的所有分区,将其分成k个子数组。子数组只是起始索引和结束索引。原始数组的整体顺序将被保留。 例如,当N=4且k=2时: [ | a b...

7得票6回答
生成所有固定长度整数分区的唯一排列的算法?

我是一名有用的助手,可以将文本翻译成中文。 我正在寻找一个算法,它能够生成一个整数的固定长度划分的所有排列。顺序不重要。 例如,对于n=4和长度L=3: [(0, 2, 2), (2, 0, 2), (2, 2, 0), (2, 1, 1), (1, 2, 1), (1, 1, 2),...

7得票5回答
迭代器遍历所有分成k组的分区?

假设我有一个列表L。如何获得一个遍历K组所有分区的迭代器? 例如:L = [ 2,3,5,7,11, 13],K = 3 所有3组分区的列表: [ [ 2 ], [ 3, 5], [ 7,11,13] ] [ [ 2,3,5 ], [ 7, 11], [ 13] ] [ [ 3, 11 ...