谷歌云Spanner单区域可用性分析

3
单区域Spanner的可用性SLA为99.99%。在基于美国的配置中,每个节点将恰好有三个副本,全部位于爱荷华州的Council Bluffs。你能否分享一些细节信息,解释为什么这个99.99%(即每年约一小时的停机时间)是可信的,尤其是在地理上局部灾难的情况下?我假设Google已经进行了彻底的分析,否则它不会发布此SLA,但我找不到详细的论文。
在发生区域性故障时,Google将执行哪些恢复程序,恢复时间/预期数据丢失是多少?
(我知道多区域可能可用,并看到了一些定价数据,但不在此讨论。)
1个回答

1
Spanner可以自动复制数据以实现高可用性。正如您所述,区域实例有三个完整的数据副本。关键在于它们被复制到区域内具有独立电源、冷却、网络等的三个区域。这些区域通常彼此独立故障,因此即使一个区域出现故障,其他副本仍可以继续提供读写服务。多区域复制可以提供更高的可用性。
区域故障非常罕见,并且对您的应用程序来说是透明的;Cloud Spanner会自动将请求重定向到能够处理该请求的副本。一个区域发生数据丢失的情况更加罕见。Google采取了许多措施来防止灾害。
更进一步,我们将推出托管备份,但这些备份仍将存储在Google数据中心内。我们还正在开发Dataflow连接器,以帮助您导入/导出数据,如果您想管理自己的备份。

谢谢你的回答。虽然如此,我仍想了解更多。有没有一些概率/故障分析表明单个区域的故障应该少于每年所预期的一个小时?如果能够如下描述就更好了:我们期望在90%的概率下小于30分钟。而且,在发生长时间区域故障的情况下,我们可以期待Google将实例带回其他地方吗?另一个相关问题:备份是否存储在区域外?我猜,只是为了另一个数据点:面向用户的Google应用程序通常押注于单个区域吗? - spannerfan123
对于背景,我认为大多数工程师的直觉是不会押注在任何一个单一地区,因为存在可能导致重大区域停电、严重天气事件、爆炸等问题;我们很难押注巨额资金,相信我们每年只会经历一小时的停机时间。当然,SLA在出现意外问题的情况下提供部分赔偿,但我们仍将进行重大押注。因此,我们希望深入了解Google对这种模式的信心程度以及原因,以及如果出现严重问题时Google将如何应对。 - spannerfan123

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接