我有两个问题-
Q1. 在MPI中,除了检查点/回滚之外,是否有更有效的处理错误情况的方式?如果一个节点“死亡”,程序会突然停止... 是否有任何方法可以在节点死亡后继续执行?(如果以精度为代价就没有问题)
Q2. 我在“https://dev59.com/vnVC5IYBdhLWcg3w7Vxq”中读到,OpenMPI具有更好的容错性,并且最近MPICH-2也推出了类似的功能... 有人知道它们是什么以及如何使用吗?这是一种“模式”吗?它们能否帮助解决Q1中提到的情况?
请回复。谢谢。
我有两个问题-
Q1. 在MPI中,除了检查点/回滚之外,是否有更有效的处理错误情况的方式?如果一个节点“死亡”,程序会突然停止... 是否有任何方法可以在节点死亡后继续执行?(如果以精度为代价就没有问题)
Q2. 我在“https://dev59.com/vnVC5IYBdhLWcg3w7Vxq”中读到,OpenMPI具有更好的容错性,并且最近MPICH-2也推出了类似的功能... 有人知道它们是什么以及如何使用吗?这是一种“模式”吗?它们能否帮助解决Q1中提到的情况?
请回复。谢谢。
更新添加:容错并没有被纳入MPI-3,但工作组继续开展工作,预计不久将会有所成果。