得票数最多 'distributed-computing' 问题

关联标签

417得票20回答

根据《学习Spark》，请记住重新分区数据是一项相当昂贵的操作。Spark还有一个经过优化的repartition()版本，称为coalesce()，它允许避免数据移动，但前提是您减少了RDD分区的数量。我得到的一个区别是，使用repartition() 可以增加/减少分区的数量，而使用c...

415得票8回答

我正在尝试理解ZooKeeper是如何工作和它的作用。是否有与ZooKeeper可比较的应用程序呢？如果您了解的话，那么您会如何向外行人描述ZooKeeper？我已经尝试过阅读Apache Wiki、ZooKeeper SourceForge等资料，但仍无法理解。我刚刚阅读了htt...

299得票2回答

我阅读了集群模式概述，但仍然无法理解Spark Standalone集群中的不同进程和并行性。 worker是JVM进程还是其他类型的进程？我运行了bin\start-slave.sh，发现它生成了一个实际上是JVM的worker。根据上面的链接，executor是在工作节点上为应用程序...

241得票6回答

在 Spark 中，关于 RDD 的持久化，cache() 和 persist() 有什么区别？

131得票25回答

如果你有十亿个数字和一百台计算机，最好的方法是什么来定位这些数字的中位数？我提出了一个解决方案：平均分配给每台计算机。对它们进行排序。为每个集合找到中位数。按照中位数对集合进行排序。从最低中位数开始，每次合并两个集合。如果我们有 m1 < m2 < m3 ...，...

96得票4回答

请问有人能解释一下 TensorFlow 中以下术语的含义吗： inter_op_parallelism_threads intra_op_parallelism_threads 如果可以，请提供相关说明的链接。我已经尝试通过更改这些参数来进行一些测试，但是结果不一致，无法得出结论。

69得票3回答

我正在探索分布式系统的见解，以及如何在涵盖多个服务、有界上下文和网络边界的业务交易中维护数据一致性。这里有两种方法，我知道用于实现分布式事务：二阶段提交（2PC）事务补偿（Sagas） 2PC是一种协议，用于支持应用程序通过平台透明地利用全局ACID事务。它嵌入在平台中，据我所...

67得票3回答

请问您能告诉我Apache Spark和AKKA之间的区别吗？我知道这两个框架都是用于编程分布式和并行计算的，但我看不出它们之间的联系或差异。此外，我想了解哪些使用案例适合每个框架。

65得票4回答

关于RDBMS在CAP定理中被归类为CA，我有两个疑问： 1）它说RDBMS不是分区容错的，但是RDBMS比像MongoDB或Cassandra这样的其他技术少分区容错吗？是否有一种RDBMS设置，我们放弃CA使其成为AP或CP? 2）它是如何做到CAP-Available的？是通过主从设...

61得票5回答

我想了解云计算和分布式计算之间的区别。我读了一篇关于云计算的文章，感觉云计算和分布式计算有某种联系，所以想询问两种技术的区别。此外，如果有人能指引我有用的云计算资源，我会非常感激。谢谢