假设您已经建立了一个Cassandra集群。您有一个10[TB]的数据库,均匀分布在10个节点之间,一切运行顺利等等。
假设您拥有100台计算机,每台计算机都尝试从cassandra集群中读取(不同的)数据。此外,您有许多作业需要不断运行,每个作业在不同的时间运行(显然,每个作业都需要在不同的计算机上运行)。
如何管理所有这些任务/工作?如何在计算机之间分发任务?如何在过程中跟踪作业/计算机?
在Linux环境中是否有任何开源工具(最好带有Python客户端),可帮助完成这些任务?
假设您拥有100台计算机,每台计算机都尝试从cassandra集群中读取(不同的)数据。此外,您有许多作业需要不断运行,每个作业在不同的时间运行(显然,每个作业都需要在不同的计算机上运行)。
如何管理所有这些任务/工作?如何在计算机之间分发任务?如何在过程中跟踪作业/计算机?
在Linux环境中是否有任何开源工具(最好带有Python客户端),可帮助完成这些任务?
condor
真的是正确的选择吗?在一堆Ubuntu机器上安装和维护它有多难?(我知道一旦安装完成,作业提交就很容易)。我们如何处理这样一个事实:我们提交了一个作业,作业正在运行,然后运行它的机器死了?(在这种情况下,我们将希望将作业重新提交到另一台机器上)此外,例如'celery'可以进行比较吗?顺便说一句,我不仅限于基于python
的解决方案,如果您有其他想法,欢迎列出。谢谢。 - user3262424condor
是否需要节点之间无密码SSH?还是无所谓的? - user3262424