最新 'partitioning' 问题 - 第5页

关联标签

11得票2回答

使用partitionBy对数据进行分区的Pyspark

我知道partitionBy函数用于对数据进行分区。如果我使用rdd.partitionBy(100)，它将按键将我的数据划分为100个部分。即与相似键相关联的数据将被组合在一起我的理解正确吗？建议将分区数设置为可用核心数吗？这样做是否可以使处理更有效？如果我的数据不是键值格式，我还...

pythonapache-sparkpysparkpartitioningrdd

7得票1回答

为什么Spark的repartition会导致MemoryOverhead？

所以问题在于主题。我认为我没有正确理解repartition的工作原理。在我的想法中，当我说 somedataset.repartition(600) 时，我希望所有数据都会被平均分成相等大小的部分（假设有60个worker）。例如，我需要加载一个大数据块到不平衡的文件中，假设有400个文...

scalaapache-sparkpartitioning

20得票1回答

Spark中的默认分区方案

当我执行下面的命令时：scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.R...

apache-sparkrddpartitioning

26得票1回答

是否可以创建具有动态分区计数的Kafka主题？

我正在使用kafka将网站用户的页面访问事件流式传输到分析服务。每个事件将包含以下消费者详细信息：用户ID 用户的IP地址由于我需要非常高的吞吐量，因此我决定以userId-ipAddress作为分区键来分区主题，即对于用户ID为1000和IP地址为10.0.0.1，事件...

apache-kafkapartitioningkafka-consumer-api

8得票2回答

使用Neo4j图形数据库的图形分区算法

我知道有一些著名的图分区算法工具，比如由Karypis实验室开发的METIS (http://glaros.dtc.umn.edu/gkhome/metis/metis/overview) 但是我想知道是否有办法对存储在Neo4j中的图进行分区？还是说我必须要导出Neo4j的数据并手动转换节...

graphneo4jpartitioningmetis

9得票10回答

数据库中的历史行管理

和许多数据库一样，我正在设计一个数据库，应该记录每个表中更改的行的先前版本的记录。这个问题的标准解决方案是为每个数据表保留一个历史表，每当需要更新数据表中的行时，就会将当前行的副本插入到历史表中，然后更新数据表中的行。这种解决方案的缺点有： - 需要维护两个表而不是一个（如果表的结构...

databaseoracledatabase-designpartitioning

8得票6回答

无法创建 here-document 的临时文件：设备上没有剩余空间。

我有一个Digital Ocean Ubuntu服务器，两天前我的网站上的每个页面都给我返回500错误。在SSH中，我收到了这条错误消息：“设备上没有剩余空间”。请查看此SSH截图获取更多信息。我恢复了备份，现在服务器和网站都正常工作，但将来可能会再次发生同样的问题。以下是当前服务器的状态。 ...

ubuntucloudpartitioningdigital-ocean

11得票6回答

快速排序 - Hoare分区算法的重复值处理

我已经实现了经典的Hoare快速排序算法中的分区算法。它适用于任何由唯一数字[3、5、231、43]组成的列表。唯一的问题是当我有一个有重复元素[1、57、1、34]的列表时，如果我得到重复的值，就会进入无限循环。private void quicksort(int[]a, int lo, i...

algorithmsortingquicksortpartitioning

14得票2回答

glm()模型的交叉验证

我想对我之前在R中建立的一些glm模型进行10倍交叉验证。我对boot包中的cv.glm()函数有点困惑，尽管我已经阅读了很多帮助文件。当我提供以下公式时:library(boot) cv.glm(data, glmfit, K=10) 这里的 "data" 参数是指整个数据集还是仅指测试集？...

rpartitioningpredictionglmcross-validation

33得票1回答

避免Spark窗口函数中单个分区模式的性能影响

我的问题是由于在spark dataframe中计算连续行之间的差异而引起的。例如，我有:>>> df.show() +-----+----------+ |index| col1| +-----+----------+ | 0.0|0.58734024| | ...

apache-sparkpysparkapache-spark-sqlpartitioningwindow-functions