最新 'partitioning' 问题 - 第3页

关联标签

7得票2回答

在Hadoop Map-Reduce中，在排序和分区之前，是否有任何类可以看到整个键列表？

我正在使用Hadoop分析数据极不均衡的情况。一些键具有数千个值，但大多数只有一个值。例如，与IP地址相关的网络流量会有许多与少数活跃IP相关的数据包，而大多数IP只有几个数据包。另一种说法是基尼系数非常高。为了有效处理这个问题，每个Reducer应该获取一些高容量键或许多低容量键，以便获...

javahadoopmapreducepartitioningpartitioner

11得票5回答

如何为多个分区编写 sfdisk 或 parted 脚本？

为了进行QA测试，我需要能够通过bash脚本分区驱动器，在RHEL和SLES中可以分多达30个或更多的分区。我已经尝试使用fdisk通过“here document”来完成这个任务，虽然可以工作，但可能由于输入命令的时间不正确而在各个步骤中失败。我的脚本只有10次中的1次会正常工作。我已经查看...

bashpartitioning

26得票1回答

是否可以创建具有动态分区计数的Kafka主题？

我正在使用kafka将网站用户的页面访问事件流式传输到分析服务。每个事件将包含以下消费者详细信息：用户ID 用户的IP地址由于我需要非常高的吞吐量，因此我决定以userId-ipAddress作为分区键来分区主题，即对于用户ID为1000和IP地址为10.0.0.1，事件...

apache-kafkapartitioningkafka-consumer-api

8得票3回答

SQL Server - 基于GUID的主键是否是支持基于租户的水平分区的最佳实践？

我正在尝试设计一个多租户数据库模式，未来需要进行水平分区，希望您能提供最佳方法。以下是关于数据库的一些大致数据：总承载租户数量约为10,000个。每个租户存储的数据量在500MB到3GB之间不等。租户数量将从小到大逐渐增加至10,000个，因此最初我们可以使用单个多租户数据库，但从长远...

sql-serverguidpartitioningmulti-tenant

7得票3回答

用递归回溯算法解决分区问题

嗨，我正在寻找一种算法，将一组正数分成k个部分，以便每个部分具有（大约）相同的总和...假设我们有 1,2,3,4,5,6,7,8,9，k = 3，则应该将算法分区如下1,2,3,4,5 | 6,7 | 8,9 元素的顺序不能改变...找到贪心算法很容易，但我正在寻找一种回溯版本，它始终返回...

algorithmrecursionpartitioningbacktrackingpartition-problem

8得票2回答

每日100万次点击的MySQL解决方案

我们正在运行一个自定义的OpenX广告服务器，它基于MySQL数据库，每天大约会有100万次点击。我们需要存储所有这些点击信息，并根据此显示统计数据。目前，所有点击信息都是每2天聚合一次，并删除特定的点击信息。但我们想为我们的联盟提供一个新功能，允许他们设置动态跟踪ID（TID），并基于此...

mysqlpartitioningopenx

7得票4回答

只显示表的列表，不包括子分区。

我希望显示PostgreSQL中仅包含顶级表而不包括分区子表的列表。(目前使用PostgreSQL 12。)在psql中，\dt命令会列出所有表，包括表的分区。我看到这样的结果： postgres=# \dt List of relatio...

postgresqlpsqlpartitioning

18得票3回答

哪个算法可以使用仅 O(N) 步骤在原地完成稳定的二进制分区？

我正在学习这篇论文：线性时间稳定最小空间划分它似乎关键的部分在于：算法B在O(nlog2n)时间和固定额外空间（constant extra space）内稳定排序大小为n的位数组，但仅需O(n)次操作。然而，该论文并没有描述算法B，只是提及了另一篇我无法访问的论文。虽然我...

algorithmbig-opartitioningstable-sort

13得票1回答

为什么在这里使用按位与运算符？

我在阅读Hadoop代码时，在一个分区器中发现了这行代码： (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks 为什么要使用按位与运算符呢？

javapartitioningbitwise-operators

26得票2回答

Spark列出所有分区数据的叶子节点。

我有按日期和小时分区的Parquet数据，文件夹结构如下：events_v3 -- event_date=2015-01-01 -- event_hour=2015-01-1 -- part10000.parquet.gz -- event_date=2015-01...

apache-sparkamazon-s3apache-spark-sqlpartitioningparquet