417得票20回答
Spark - repartition()和coalesce()的区别

根据《学习Spark》,请记住重新分区数据是一项相当昂贵的操作。Spark还有一个经过优化的repartition()版本,称为coalesce(),它允许避免数据移动,但前提是您减少了RDD分区的数量。 我得到的一个区别是,使用repartition() 可以增加/减少分区的数量,而使用c...

415得票8回答
解释 Apache ZooKeeper

我正在尝试理解ZooKeeper是如何工作和它的作用。是否有与ZooKeeper可比较的应用程序呢? 如果您了解的话,那么您会如何向外行人描述ZooKeeper? 我已经尝试过阅读Apache Wiki、ZooKeeper SourceForge等资料,但仍无法理解。 我刚刚阅读了htt...

299得票2回答
Spark Standalone集群中的workers、executors和cores是什么?

我阅读了集群模式概述,但仍然无法理解Spark Standalone集群中的不同进程和并行性。 worker是JVM进程还是其他类型的进程?我运行了bin\start-slave.sh,发现它生成了一个实际上是JVM的worker。 根据上面的链接,executor是在工作节点上为应用程序...

241得票6回答
缓存和持久化有什么区别?

在 Spark 中,关于 RDD 的持久化,cache() 和 persist() 有什么区别?

131得票25回答
计算十亿个数字的中位数

如果你有十亿个数字和一百台计算机,最好的方法是什么来定位这些数字的中位数? 我提出了一个解决方案: 平均分配给每台计算机。 对它们进行排序。 为每个集合找到中位数。 按照中位数对集合进行排序。 从最低中位数开始,每次合并两个集合。 如果我们有 m1 < m2 < m3 ...,...

96得票4回答
inter_op_parallelism_threads和intra_op_parallelism_threads的含义是什么?(涉及IT技术)

请问有人能解释一下 TensorFlow 中以下术语的含义吗: inter_op_parallelism_threads intra_op_parallelism_threads 如果可以,请提供相关说明的链接。我已经尝试通过更改这些参数来进行一些测试,但是结果不一致,无法得出结论。

69得票3回答
2PC与Sagas(分布式事务)

我正在探索分布式系统的见解,以及如何在涵盖多个服务、有界上下文和网络边界的业务交易中维护数据一致性。 这里有两种方法,我知道用于实现分布式事务: 二阶段提交(2PC) 事务补偿(Sagas) 2PC是一种协议,用于支持应用程序通过平台透明地利用全局ACID事务。它嵌入在平台中,据我所...

67得票3回答
Apache Spark与Akka比较

请问您能告诉我Apache Spark和AKKA之间的区别吗?我知道这两个框架都是用于编程分布式和并行计算的,但我看不出它们之间的联系或差异。 此外,我想了解哪些使用案例适合每个框架。

65得票4回答
为什么关系型数据库管理系统在 CAP 定理中不具备分区容错性,但它是可用的?

关于RDBMS在CAP定理中被归类为CA,我有两个疑问: 1)它说RDBMS不是分区容错的,但是RDBMS比像MongoDB或Cassandra这样的其他技术少分区容错吗?是否有一种RDBMS设置,我们放弃CA使其成为AP或CP? 2)它是如何做到CAP-Available的?是通过主从设...

61得票5回答
云计算和分布式计算的区别是什么?

我想了解云计算和分布式计算之间的区别。我读了一篇关于云计算的文章,感觉云计算和分布式计算有某种联系,所以想询问两种技术的区别。 此外,如果有人能指引我有用的云计算资源,我会非常感激。 谢谢