172得票13回答
Zookeeper是否是Kafka必需的?

在Kafka中,我想只使用单个代理、单个主题和一个分区,其中有一个生产者和多个消费者(每个消费者从代理获取自己的数据副本)。鉴于此,我不想使用Zookeeper的开销;我能不能只使用代理?为什么必须使用Zookeeper?

145得票5回答
如何定义DataFrame的分区?

我开始使用Spark 1.4.0中的Spark SQL和DataFrames。我想在Scala中为DataFrames定义自定义分区器,但不知道如何实现。 我正在处理的数据表之一包含类似于以下示例的按帐户分类的交易列表。Account Date Type Amoun...

86得票3回答
哈希分区器是如何工作的?

我查阅了HashPartitioner的文档,但除了API调用外,并没有太多解释。据我所知,HashPartitioner会根据键的哈希值对分布式集合进行分区。例如,如果我的数据是这样的(1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 因此,分区程序将使用相同的...

71得票17回答
高效地将列表分成大小为n的列表的方法

我有一个 ArrayList,想把它分割成大小为 n 的小 List 对象,并对每个对象执行操作。目前我的方法是使用 Java 中的 ArrayList 对象实现的。任何伪代码都可以。 for (int i = 1; i <= Math.floor((A.size() / n));...

69得票5回答
Pandas:对DataFrame进行抽样

我想用Pandas读取一个相当大的CSV文件,并将其分成两个随机块,其中一个块为数据的10%,另一个块为90%。 这是我目前的尝试:rows = data.index row_count = len(rows) random.shuffle(list(rows)) data.reindex...

68得票3回答
什么是MYSQL分区?

我已经阅读了文档 (http://dev.mysql.com/doc/refman/5.1/en/partitioning.html),但我想用您自己的话来解释它是什么以及为什么要使用它。 它主要用于多个服务器,以避免拖慢单个服务器吗? 所以,数据的一部分将存储在 server1 上,另...

59得票3回答
处理大数据量的MySQL技巧

抱歉篇幅有点长! 我有一个包含约30个表格(使用InnoDB引擎)的数据库。其中只有两张表,“transaction”和“shift”比较大(第一张表有150万行,第二张表有23k行)。现在一切都正常运作,我没有当前数据库大小的问题。 然而,我们将会有一个类似的数据库(相同的数据类型、设计...

50得票8回答
MySQL分区/分片/拆分 - 选择哪种方式?

我们有一个InnoDB数据库,大约为70 GB,我们预计它在未来2到3年内会增长到数百GB。约60%的数据属于单个表。目前,由于我们有一台64 GB RAM的服务器,因此整个数据库几乎都适合内存,所以数据库运行得相当良好,但是我们担心未来数据量将大大增加。现在我们正在考虑某种分割表格的方法(特...

46得票7回答
LINQ将列表分区为每个8个成员的列表

如何使用LINQ将一个列表(List)拆分为一个列表的列表(List of Lists),并且在每第8个条目上对原始列表进行分区? 我想这可能涉及到Skip和/或Take,但我对LINQ还是很陌生。 编辑:使用C# / .Net 3.5 编辑2:此问题与其他“重复”问题的措辞不同。尽管问...

44得票3回答
如何在Spark中对DataFrame进行分区和写入,而不会删除没有新数据的分区?

我正在尝试使用DataFrameWriter将一个DataFrame以Parquet格式保存到HDFS中,按照三个列值进行分区,代码如下: dataFrame.write.mode(SaveMode.Overwrite).partitionBy("eventdate", "hour", "p...