光纤挖断后的150秒

人民时讯快报 次浏览

周末的一起光纤中断事故引发了一场声势浩大的断网危机。

3月23日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。

“大概是从下午3点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况”来自上海的南汇区的一位网友在微信群里吐槽。

这并非个别情况。随即不少群友开始接连反馈遇到类似的问题:“还以为我手机问题,重启好多次啦”“可怕,4G,wifi都登不上去,以为我家路由器坏了”等等。

与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。

下午4点52分,腾讯云率先对外公告称,腾讯云平台在2019年03月23日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。

一位腾讯云的合作伙伴发表朋友圈说,,“今天必须要替腾讯云打一下广告,现有光纤监测技术无法实现毫秒级的监控需求,只能做到10分钟级。腾讯云现在已经可以把预警提升到秒级,相信很快可以再往前提升为毫秒级!这样就不怕一铲子将光纤挖断啦……”

在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

智能化流量调度系统大显身手

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部T级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。

“这项技术的厉害之处在于,即使遇到运营商的光纤故障,这套调度系统能够根据需要自动绕过故障点,从而第一时间恢复公网用户的网络覆盖。”腾讯云工程师kris介绍说。

正常来说,如果没有这套流量调度系统,只能被动的等待运营商来完成修复,这样的结果是可能需要更长的时间。

从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。

最终结果是,此次光纤故障,腾讯云从发现到恢复故障,全程只有2分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在短短150秒之内就快速恢复了网络,企业运维人员几乎无任何感知。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。

首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。

另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计(如图1)。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用3条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在50毫秒级自动切换。

光纤挖断后的150秒

图1:腾讯云四纤三路由高度冗余架构

除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息

能够在光纤中断这种极端事件中,仍然保证客户网络的平稳运行,得益于腾讯云多年来在骨干网、运营商领域深厚的技术和资源积累,同时,腾讯云自身众多海量业务的打磨,也助推腾讯云在智能化网络架构领域的探索更进一步。

正如腾讯云的合作伙伴在朋友圈评价的那样,“接触腾讯这么久,我很相信,做云,你们真的是认真的!”

是的,做云,我们是认真的!