这“多活”一定是创造发明,灾备是很多的,比如相同的系统要分布在相距40公里以上的两个机房,其中一个为另一个的镜像或者备份。当一处出现问题,另一处就可以工作。这是灾备的常见做法。
对于支付宝的事情我不是很清楚。但是携程的说法是很难令人相信的。携程说是工程师在操作线上服务器的时候误删除程序造成的。这违反了一般常识。
相对数据来说,程序备份和恢复是相当容易的,因为程序上线以前,会有之前的备份,版本管理,另外程序更新不是实时的,程序包的大小也有限。
从携程的情况里看,出问题时,就是404访问,这样实时数据其实没有被破坏。应该来说恢复程序即可。当然情况可能会比我们想的复杂。但是携程是不可能没有灾备的,镜像网站可以很快顶替上线。
这里最可能的依然是坊间传闻的携程的数据库遭到破坏,虽然携程肯定有实时备份方案,但是数据备份恢复需要很长的过程。尤其是大数据。恢复以前,还要确定到底是哪个时间点出现的问题,以免恢复的时候又带进坏数据,这样花销掉12小时恢复还说得过去。
我猜测,携程有可能担心数据库被破坏,会造成客户和合作伙伴对数据隐私的担忧,而选择了理由为:程序被破坏。当然这种事情,只有他们自己说了算。别人也不好说什么,不是吗?