024-88881388

网势往事

今天的网势也会是我们将来美好的网势

支付宝扛得住双十一 為(wèi)何扛不住一个机房故障?

 

吃完饭付不了款、抢到特价商(shāng)品却眼睁睁看着交易关闭、公共自行車(chē)扫码支付失败,只好走着去上班……7月22日上午


支付宝扛得住双十一 為(wèi)何扛不住一个机房故障?


■IT时报   吴雨欣


吃完饭付不了款、抢到特价商(shāng)品却眼睁睁看着交易关闭、公共自行車(chē)扫码支付失败,只好走着去上班……7月22日上午,不少用(yòng)户发现,支付宝出现故障,不管是买火車(chē)票、网上订餐还是转账、提现均无法实现,更不可(kě)思议的是,上午明明显示转账失败,通过其他(tā)方式转账后,下午支付宝就变成了转账成功。看着页面 “网络不给力,请稍后再试”的提示,不管你怎么切换网络,重启路由器,结果还是一样。


作為(wèi)全球最大的第三方支付机构,这不是支付宝第一次不给力,2015年5月28日,支付宝因杭州萧山(shān)的光纤被挖断出现全國(guó)范围系统瘫痪長(cháng)达2.5小(xiǎo)时。14个月后,在阿里巴巴宣称攻克了“服務(wù)器资源弹性部署”和“数据中心异地双活”两项技术难题后,此次发生的故障依然持续2个多(duō)小(xiǎo)时。


当支付宝逐渐替代钱包成為(wèi)人们的随身支付工具时,两个小(xiǎo)时的网络中断所影响的人群和支付事项越来越多(duō),而且再度引发专家对支付宝灾备能(néng)力的质疑。


深圳机房发生故障


7月22日上午10点10分(fēn)左右,有(yǒu)用(yòng)户开始在网上吐槽支付宝不可(kě)使用(yòng)。11点44分(fēn),支付宝官方微博表示,上午10时多(duō),由于支付宝在华南的一处机房出现故障,技术团队紧急将业務(wù)逐步切流到其他(tā)机房,过程中影响了部分(fēn)用(yòng)户对部分(fēn)功能(néng)的使用(yòng),用(yòng)户的资金和信息安全不受影响。直到12点36分(fēn),支付宝再次回应称,系统已经恢复正常。


“以目前阿里云的处理(lǐ)能(néng)力,在假想极端情况下,即便杭州的数据中心全部宕掉,依然能(néng)够平稳度过双十一,互联网创业网,不影响用(yòng)户的購(gòu)物(wù)體(tǐ)验。”阿里备战2015年双十一时的豪言犹在耳边。很(hěn)难想象,在一个既非双十一也非节假日的周五,支付宝一个机房的故障竟然导致服務(wù)中断持续了两个小(xiǎo)时。


“出问题的机房在深圳,切流时间長(cháng)且恢复慢,是有(yǒu)点不太正常。”一位接近支付宝深圳机房的知情人士向《IT时报》记者透露,这次事故的原因是多(duō)方面的,互联网创业网,既有(yǒu)机房机件等硬件设施的原因,也有(yǒu)网络故障方面的因素。他(tā)举了个例子,支付宝就像是一辆小(xiǎo)汽車(chē),运营商(shāng)提供的高速公路是通的,但小(xiǎo)汽車(chē)内部出了问题卡在了半路,数据从一个地方送不到另外一个地方。


“异地多(duō)活”架构没起充分(fēn)作用(yòng)


在2015年全球架构师峰会上,阿里巴巴高级系统工程师曾欢(阿里花(huā)名為(wèi)善衡)结合互联网金融业務(wù)及系统特性,分(fēn)享了支付宝的高可(kě)用(yòng)与容灾架构演进,表示支付宝在该方面已进入成熟的青年时期,有(yǒu)快速恢复的容灾能(néng)力,可(kě)做到同城内数据中心之间,甚至城市和城市之间在故障发生时自如地进行应急切换,使得支付宝实现“异地多(duō)活”的架构能(néng)力。


“所谓异地多(duō)活是指数据中心在机房基础设施、地理(lǐ)空间、网络资源、软硬件部署上是分(fēn)布的,多(duō)中心之间可(kě)以并行為(wèi)业務(wù)访问提供服務(wù),互為(wèi)备份,地位均等。一个数据中心出问题,其他(tā)数据中心可(kě)对业務(wù)接管实现无缝切换,用(yòng)户无感知。支付宝双十一能(néng)撑起8.59万筆(bǐ)/秒(miǎo)的交易峰值及支付宝平时的处理(lǐ)速度也是得益于异地多(duō)活,只是不知道為(wèi)什么这次异地多(duō)活没起太大作用(yòng)。”一位业内人士向《IT时报》记者表示,正是因為(wèi)异地多(duō)活所需的设备量,阿里机房摒弃了昂贵的专业高端设备,选用(yòng)X86服務(wù)器和國(guó)产的开源软件。支付宝这次的故障很(hěn)可(kě)能(néng)是因為(wèi)网络出口有(yǒu)单点故障,瓶颈堵塞,导致引流出现问题。


据了解,國(guó)内商(shāng)业银行采用(yòng)的多(duō)是“两地三中心”模式。以交通银行為(wèi)例,交通银行的中心机房在上海,同城及1000公里外的地方各设一个灾备中心,当中心机房出现故障,ATM、POS等72小(xiǎo)时不间断的重要业務(wù)要做到秒(miǎo)级切换,无缝连接,即使考虑到通信延迟,这个时间也要控制在30秒(miǎo)内。根据信息系统的时间敏感性,交通银行把应用(yòng)系统的灾难恢复分(fēn)成三个等级,亦将灾备的不同场景分(fēn)為(wèi)十个等级,六等级以上支付终端,中断服務(wù)持续两小(xiǎo)时要上报银监会和央行,區(qū)域发生瘫痪四小(xiǎo)时上报國(guó)務(wù)院。


一位交通银行的内部人士告诉《IT时报》记者,交通银行要求各分(fēn)行至数据中心的网络采用(yòng)多(duō)运营商(shāng)通道,以防止某一家运营商(shāng)网络出问题,同时会与运营商(shāng)达成协议,把网络收敛时间控制在一定时间内,所谓“网络收敛”,是指当A机房彻底瘫痪,网络中所有(yǒu)结点全部更新(xīn)它们的路由表,将网络指向B机房的时间,在这段时间内,银行的其他(tā)业務(wù)会被相继切换。


中國(guó)银联在京沪两地也是三个数据中心,两城三地之间的数据一致,切换速度在分(fēn)钟以内,当任何一个数据中心发生问题,丝毫不会影响消费者的刷卡交易。


相较于开放、灵活的异地多(duō)活模式,“两地三中心”投资巨大,所采用(yòng)的设备大多(duō)是IBM、ORACLE(甲骨文(wén))、EMC等高端设备,价格惊人,这几年國(guó)内尽管一直在要求“去IOE”,但出于对安全的考虑,很(hěn)多(duō)银行都不敢轻举妄动。


第三方支付缺少灾备监管


故障修复后,支付宝强调,用(yòng)户的资金安全和信息安全不会受到任何影响。但不少用(yòng)户担忧,自己充手机话费、叫外卖、网購(gòu)、银行转账、还贷,都习惯在支付宝上进行,如果以后类似故障再次发生,给生活造成的影响可(kě)能(néng)会更大。


据中國(guó)支付清算协会统计,截至2015年底,完成实名认证的支付账户共有(yǒu)13.46亿个,占总支付账户总量的51.07%。在今年4月举行的哥(gē)本哈根Money2020大会上,蚂蚁金服國(guó)际事业部总裁彭翼捷预测,蚂蚁金服旗下的支付宝未来10年的用(yòng)户量将增加至20亿。


当第三方支付与人们的生活越来越息息相关,使用(yòng)频次甚至超过银行卡时,对于信息数据和交易的安全要求,是否享受和银行同样的“待遇”呢(ne)?


2008年,中國(guó)人民(mín)银行出台的行业标准《银行业信息系统灾难恢复管理(lǐ)规范》中,将信息系统按时间敏感性分(fēn)為(wèi)三类需求等级,确定了每类信息系统灾难恢复的时间。2015年,银监会发布的《商(shāng)业银行业務(wù)连续性监管指引》中,要求商(shāng)业银行应当在银行集团内建立内部重大事项报告制度,附属机构要及时报告经营活动中的重大事项、重大风险以及境内外监管机构采取的重大监管行动和监管措施。商(shāng)业银行还应当就各类风险分(fēn)不同情景定期开展银行集团层面的压力测试,充分(fēn)考虑各种情景的相互作用(yòng),并根据结果制定相应预案,确保银行集团能(néng)够有(yǒu)效应对各类不利情景。特别是对于重度压力情景下的测试结果,商(shāng)业银行应当在银行集团内建立详细、完备的应对预案。


2015年3月30日,证监会证券基金监管部开出一份罚单:由于2015年1月5日上午工商(shāng)银行三方存管系统出现异常,影响90家证券公司54709名客户、48.8亿元的银证转账操作,造成部分(fēn)投资者无法资金转账,9家证券公司出现客户资金账户汇总余额虚增1237万元。证监会要求,工行需在2015年4月30日前予以改正,完善技术系统,规范应急处理(lǐ),杜绝此类问题再次发生,同时应当在2015年5月10日前,向证监会提交书面报告,证监会将组织检查验收。


但对于第三方支付机构的灾备方案,《IT时报》记者仅在今年7月1日起施行、由中國(guó)人民(mín)银行发布的《非银行支付机构网络支付业務(wù)管理(lǐ)办法》的第三十二条和三十八条中看到这样的表述:支付机构应当制定突发事件应急预案,建立灾备系统,保障业務(wù)连续性和系统安全性;支付机构应当于每年1月31日前,将前一年度发生的风险事件、客户风险损失、客户损失赔付等情况在网站对外公告。记者并未查阅到监管部门对第三方支付更细致的指引。


7月26日,支付宝内部人士向《IT时报》记者表示,故障具體(tǐ)原因已向监管机构及合作伙伴说明,不便向媒體(tǐ)透露。