最新 'partitioning' 问题

关联标签

33得票3回答

我不太理解线性分割问题的动态规划解法。我正在阅读算法设计手册，该问题在第8.5节中有描述。我已经无数次地阅读了该节，但我仍然无法理解它。我认为这是一个糟糕的解释（到目前为止我所读的内容都要好得多），但我还没有能够充分理解问题以寻找替代解释。欢迎提供更好的解释链接！我找到了一篇与书中文字类似...

14得票1回答

我正在使用Hazelcast v2.5，我有几个关于集群分区的疑问。如何识别分区？当进行m.get请求时，除了关键字之外，Hazelcast如何确定数据位于哪个分区？新成员加入集群时如何进行分区？如果输入分区ID，可以获取分区中的条目吗？

7得票4回答

在Java中，我有一个集合，我想获得所有可能的子集组合，这些子集的并集构成了主集合（即对集合进行分区）。例如，给定以下集合： set={1,2,3} 结果应该是： { {{1,2,3}} , {{1},{2,3}} , {{1,2},{3}} , {{1,3},{2}}, {{1},...

30得票3回答

自动更新Hive分区表元数据的方法是什么？如果向HDFS添加了新的分区数据（未执行alter table add partition命令），那么我们可以通过执行“msck repair”命令来同步元数据。如果从HDFS中删除了大量分区数据（未执行alter table drop par...

9得票1回答

我正在查询一个大表，该表在名为day的字段上进行了分区。如果我运行以下查询： select * from my_table where day in ('2016-04-01', '2016-03-01') 我会得到很多映射器和减速器，并且查询需要很长时间才能运行。然而，如果我编写以...

8得票2回答

RDD中包含的元素数量和其理想分区数之间是否有关系？我有一个RDD，它有成千上万个分区（因为我从由多个小文件组成的源文件中加载它，这是一个我无法解决的限制，所以我必须处理它）。我想重新分区它（或使用coalesce方法）。但我不知道RDD将包含的确切事件数量。因此，我希望以自动化方式完...

32得票5回答

我有一个大小约为400MB的weka模型存储在S3中。现在，我有一些记录需要运行该模型并进行预测。为了进行预测，我尝试了以下操作：下载和加载模型到driver作为静态对象，并将其广播到所有执行器上。对预测RDD执行map操作。 ----> 不起作用，因为在Weka中，为了进行预测，需...

9得票3回答

有许多资源建议将高基数属性用作分区键。我的问题是，如果我反其道而行之，并给所有项目相同的分区键值（仅通过排序键进行区分），从而允许我在整个表上查询，会发生什么？这会导致性能和/或热分区问题吗？如果自适应容量没有达到3000 RCUs/1000 WCUs，那么热分区是否重要？即使如此，如果我...

172得票13回答

在Kafka中，我想只使用单个代理、单个主题和一个分区，其中有一个生产者和多个消费者（每个消费者从代理获取自己的数据副本）。鉴于此，我不想使用Zookeeper的开销；我能不能只使用代理？为什么必须使用Zookeeper？

27得票3回答

我需要使用Spark SQL的 HiveContext 从Hive表中加载数据并将其加载到HDFS中。默认情况下，SQL输出的 DataFrame 有2个分区。为了获得更多的并行性，我需要从SQL中获得更多的分区。但是在 HiveContext 中没有重载的方法可以接受分区数参数。重新分区...