IDC时评:BAT概莫能外!近年数据中心严重宕机事故盘点
金蝶云社区-陈静怡
陈静怡
2人赞赏了该文章 266次浏览 未经作者许可,禁止转载编辑于2019年07月12日 19:50:53

现如今,数据中心已经成为了我们生活当中看不见,但又离不开的存在。它的稳定关系所有人的生活......一旦宕机,后果不堪设想。不仅会造成用户无法正常访问应用,严重的还会造成巨大经济损失。据美国调查机构数据显示,数据中心宕机,能够造成每分钟将近1万美元的经济损失。

YouTube对于美国人来说,恐怕和咱们的抖音地位相当。其用户覆盖了美国,南美,北美以及欧洲大部分地区。在2018年10月16日晚上,正当用户像往常一样输入账号和密码准备登陆的时候,却总是提示失败。

事后得知,YouTube的服务器出现了宕机,时间持续了超过2个小时。影响的范围包括网页版和移动端,造成的结果就是用户无法访问网页,登陆或者播放相关视频。

事实上,宕机事件是行业普遍现象,并非YouTube所独有。其中不乏微软、腾讯、阿里巴巴等互联网巨头。下面咱们就来看看过去几年,世界各国出现的比较经典的宕机事故吧。

1、2018年微软Azure宕机

2018年9月4日 09:29,微软云服务 Azure报告,由于美国中南区数据中心附近发生了雷击在内的恶劣天气事件,导致冷却系统的电压暴增,使得多个 Azure 服务出现连接问题,客户储存在中南区数据中心的资源受到严重影响。

2、2016美国大宕机

美国一向以互联网鼻祖自居,同时其网络防护的安全性也是傲视群雄。可就在2016年10月21日早晨,从美国东部开始,Twitter、CNN、Spotify等大型网站均开始出现无法登陆的现象,最后这一情况蔓延到全美。这也造成了很多用户恐慌,因为原因是服务器遭受了黑客的DDos攻击。

3、2015亚马逊云服务宕机

一般来说,新业务或者大型活动,都会造成大量数据峰值爆发,如果处理不当,数据中心算力不足也会导致宕机。比如在我国的双十一,618等节点,电商们都会临时调用其他部门的算力来应急。但在国外,好像不太流行这种方法。亚马逊2015年新上线的DynamoDB,因为运维人员对数据峰值评估不谨慎,导致服务器因为过载而宕机。于是Reddit、Tinder、Netflix和IMDB在内的众多流行应用和网址直接访问失败,时间长达几个小时。招致用户骂娘者无数......

4、2015支付宝宕机事故

2015年5月27日,位于杭州市萧山区的一处地下光缆被挖断,该事故导致阿里巴巴的数据中心业务请求中断,直接影响了支付宝的部分用户,出现账户无法登陆或者支付的情况。虽然后来支付宝工程师紧急将其用户请求切换至其他机房,但该事件的影响依然持续了将近5个小时。

5、2013年雅虎邮箱故障

雅虎这家公司对于现在的年轻人可能不太熟悉了,但是在二十年前,可是号称最伟大的互联网公司。2013年10月,在雅虎邮箱的重大功能升级之后,部分用户发现账户中的一些信件不翼而飞了。最开始雅虎公司对自己出现的问题避而不谈,直到当年12月份才不得不承认,是由于服务宕机,导致1%的雅虎邮箱账号出现了故障。据悉,当时邮件通讯受到影响的雅虎用户大约有100万人左右。主要现象是邮件丢失,很多邮件在数月之后依然处于未发送状态。

6、2013纳斯达克宕机

纳斯达克不用说了吧,人尽皆知。在2013年8月22日,其交易所的备用服务器被暴出重大Bug,使得市场交易中断达3个小时。虽然事后恢复,但依然引起了市场恐慌。作为纳斯达克交易所运营商的OMX集团股票被大量抛售,使得其股价当日最大跌幅超过5%......多么可怕?

在这一事件过后没多久,纳斯达克立马升级了它的证券信息处理器,改进了包括架构、信息安全、故障后恢复方案和性能参数在内的多项设计。

7、2013微信宕机事故

你以为宕机事故在BAT当中是个例?那你就错了。这件事说起来估计很多用户都还记得,在2013年7月22日,微信也出现过一次严重的宕机事故。导致了服务中断达7小时之久。最后调查的结果显示,这是因为一支施工队无意间挖断了通信光缆,造成腾讯华东数据中心网络中断,其服务不得不临时转向华南和华北,使得整体业务全面瘫痪。

8、2012年飓风桑迪带来的“天灾”

服务器宕机除了运维不当的人祸之外,也有天灾的影响。比如在2012年,美国著名的飓风桑迪就造成了全美大范围电力中断。致使部署在纽约的大批服务器“罢工”,包括《赫芬顿邮报》、“嗡嗡喂”和掴客网在内的众多大型知名网站都瘫痪了,给居民的工作和生活造成了严重影响。

9、2009年微软云服务宕机事故

2009年秋天,微软出现的一次云服务宕机事故,主要影响的是T-Mobile Sidekick手机用户。导致的结果是用户的EMAIL无法登陆,日历信息显示出错,与他人联系中断。周期持续长达一周之久......此事件微软最后被用户搞的相当狼狈。

10、2005谷歌遭雷劈

2005年,谷歌位于比利时的数据中心由于遭遇了4次闪电袭击,导致磁盘受损、部分云存储系统断线、数据丢失。后来虽然经过紧急抢修恢复了绝大多数的设备,但仍然有0.05%的磁盘未得到修复,造成其中的数据永久丢失。

由此可见,宕机对用户的影响有多么严重。据外国分析人士指出,造成宕机的原因最主要的来自于人为,包括停机,设备老化,维护措施不当等。除此以外,由于选址,雷击等天灾问题造成的宕机也占一部分因素。

其实,造成数据中心宕机的原因五花八门。甚至包括松鼠啃噬数据中心外部电源线而导致的停电事故,有的是铁锚刮断了设置在海底的通讯电缆,或者由于点燃的烟头引起的火灾。

在现如今,随着5G和边缘计算的逐步落地,未来数据中心会朝两个方向发展。一个是大规模的云计算数据中心集群,另一个方面则是星罗棋布的边缘数据中心。如果说拥有7x24小时不间断人工维护的大型云数据中心尚且难保万全,那么今后那么多无人值守的边缘数据中心又将如何呢?

 


本文转载自:中国IDC圈

作者:胡弘毅

原文链接:http://news.idcquan.com/news/166903.shtml

图标赞 2
2人点赞
还没有人点赞,快来当第一个点赞的人吧!
图标打赏
0人打赏
还没有人打赏,快来当第一个打赏的人吧!