IDC时评：BAT概莫能外！近年数据中心严重宕机事故盘点

陈静怡

2人赞赏了该文章 266次浏览编辑于2019年07月12日 19:50:53

现如今，数据中心已经成为了我们生活当中看不见，但又离不开的存在。它的稳定关系所有人的生活......一旦宕机，后果不堪设想。不仅会造成用户无法正常访问应用，严重的还会造成巨大经济损失。据美国调查机构数据显示，数据中心宕机，能够造成每分钟将近1万美元的经济损失。

YouTube对于美国人来说，恐怕和咱们的抖音地位相当。其用户覆盖了美国，南美，北美以及欧洲大部分地区。在2018年10月16日晚上，正当用户像往常一样输入账号和密码准备登陆的时候，却总是提示失败。

事后得知，YouTube的服务器出现了宕机，时间持续了超过2个小时。影响的范围包括网页版和移动端，造成的结果就是用户无法访问网页，登陆或者播放相关视频。

事实上，宕机事件是行业普遍现象，并非YouTube所独有。其中不乏微软、腾讯、阿里巴巴等互联网巨头。下面咱们就来看看过去几年，世界各国出现的比较经典的宕机事故吧。

1、2018年微软Azure宕机

2018年9月4日 09:29，微软云服务 Azure报告，由于美国中南区数据中心附近发生了雷击在内的恶劣天气事件，导致冷却系统的电压暴增，使得多个 Azure 服务出现连接问题，客户储存在中南区数据中心的资源受到严重影响。

2、2016美国大宕机

美国一向以互联网鼻祖自居，同时其网络防护的安全性也是傲视群雄。可就在2016年10月21日早晨，从美国东部开始，Twitter、CNN、Spotify等大型网站均开始出现无法登陆的现象，最后这一情况蔓延到全美。这也造成了很多用户恐慌，因为原因是服务器遭受了黑客的DDos攻击。

3、2015亚马逊云服务宕机

一般来说，新业务或者大型活动，都会造成大量数据峰值爆发，如果处理不当，数据中心算力不足也会导致宕机。比如在我国的双十一，618等节点，电商们都会临时调用其他部门的算力来应急。但在国外，好像不太流行这种方法。亚马逊2015年新上线的DynamoDB，因为运维人员对数据峰值评估不谨慎，导致服务器因为过载而宕机。于是Reddit、Tinder、Netflix和IMDB在内的众多流行应用和网址直接访问失败，时间长达几个小时。招致用户骂娘者无数......

4、2015支付宝宕机事故

在2015年5月27日，位于杭州市萧山区的一处地下光缆被挖断，该事故导致阿里巴巴的数据中心业务请求中断，直接影响了支付宝的部分用户，出现账户无法登陆或者支付的情况。虽然后来支付宝工程师紧急将其用户请求切换至其他机房，但该事件的影响依然持续了将近5个小时。

5、2013年雅虎邮箱故障

雅虎这家公司对于现在的年轻人可能不太熟悉了，但是在二十年前，可是号称最伟大的互联网公司。2013年10月，在雅虎邮箱的重大功能升级之后，部分用户发现账户中的一些信件不翼而飞了。最开始雅虎公司对自己出现的问题避而不谈，直到当年12月份才不得不承认，是由于服务宕机，导致1%的雅虎邮箱账号出现了故障。据悉，当时邮件通讯受到影响的雅虎用户大约有100万人左右。主要现象是邮件丢失，很多邮件在数月之后依然处于未发送状态。

6、2013纳斯达克宕机

纳斯达克不用说了吧，人尽皆知。在2013年8月22日，其交易所的备用服务器被暴出重大Bug，使得市场交易中断达3个小时。虽然事后恢复，但依然引起了市场恐慌。作为纳斯达克交易所运营商的OMX集团股票被大量抛售，使得其股价当日最大跌幅超过5%......多么可怕？

在这一事件过后没多久，纳斯达克立马升级了它的证券信息处理器，改进了包括架构、信息安全、故障后恢复方案和性能参数在内的多项设计。

7、2013微信宕机事故

你以为宕机事故在BAT当中是个例？那你就错了。这件事说起来估计很多用户都还记得，在2013年7月22日，微信也出现过一次严重的宕机事故。导致了服务中断达7小时之久。最后调查的结果显示，这是因为一支施工队无意间挖断了通信光缆，造成腾讯华东数据中心网络中断，其服务不得不临时转向华南和华北，使得整体业务全面瘫痪。

8、2012年飓风桑迪带来的“天灾”

服务器宕机除了运维不当的人祸之外，也有天灾的影响。比如在2012年，美国著名的飓风桑迪就造成了全美大范围电力中断。致使部署在纽约的大批服务器“罢工”，包括《赫芬顿邮报》、“嗡嗡喂”和掴客网在内的众多大型知名网站都瘫痪了，给居民的工作和生活造成了严重影响。

9、2009年微软云服务宕机事故

2009年秋天，微软出现的一次云服务宕机事故，主要影响的是T-Mobile Sidekick手机用户。导致的结果是用户的EMAIL无法登陆，日历信息显示出错，与他人联系中断。周期持续长达一周之久......此事件微软最后被用户搞的相当狼狈。

10、2005谷歌遭雷劈

2005年，谷歌位于比利时的数据中心由于遭遇了4次闪电袭击，导致磁盘受损、部分云存储系统断线、数据丢失。后来虽然经过紧急抢修恢复了绝大多数的设备，但仍然有0.05%的磁盘未得到修复，造成其中的数据永久丢失。

由此可见，宕机对用户的影响有多么严重。据外国分析人士指出，造成宕机的原因最主要的来自于人为，包括停机，设备老化，维护措施不当等。除此以外，由于选址，雷击等天灾问题造成的宕机也占一部分因素。

其实，造成数据中心宕机的原因五花八门。甚至包括松鼠啃噬数据中心外部电源线而导致的停电事故，有的是铁锚刮断了设置在海底的通讯电缆，或者由于点燃的烟头引起的火灾。

在现如今，随着5G和边缘计算的逐步落地，未来数据中心会朝两个方向发展。一个是大规模的云计算数据中心集群，另一个方面则是星罗棋布的边缘数据中心。如果说拥有7x24小时不间断人工维护的大型云数据中心尚且难保万全，那么今后那么多无人值守的边缘数据中心又将如何呢？

本文转载自：中国IDC圈

作者：胡弘毅

原文链接：http://news.idcquan.com/news/166903.shtml

2人点赞

还没有人点赞，快来当第一个点赞的人吧！

打赏

0人打赏

还没有人打赏，快来当第一个打赏的人吧！

赞 2 评论收藏

IDC时评：BAT概莫能外！近年数据中心严重宕机事故盘点

恭喜您！