公司刚上线的新业务系统,半夜突然访问不了,运维一查发现是主线路出了问题。等切换到备用线路,前后花了二十分钟。用户抱怨声一片,老板第二天就问:为什么不能自动切?
高可用不是买设备就完事
很多人觉得,数据中心上了双核心交换机、双出口、双电源,就叫高可用了。其实不然。设备冗余只是基础,关键是怎么让流量在故障发生时‘无感’地绕过去。
比如你家宽带,装了电信和联通两条线。如果电信断了,你得手动拔网线换到联通?显然不现实。数据中心也一样,得靠路由策略自动选路。
BGP 是怎么扛起大梁的
在跨运营商或多出口场景里,BGP(边界网关协议)是实现自动故障转移的核心。它不像静态路由那样写死路径,而是能根据网络状态动态调整。
举个例子:你有两个互联网出口,分别接移动和电信。通过 BGP 向两边宣告你的 IP 段。当移动线路中断,对端收不到你的路由更新,自然会把流量转向电信出口。整个过程秒级完成,用户几乎察觉不到。
router bgp 65001
neighbor 203.0.113.1 remote-as 4837
neighbor 203.0.113.1 ebgp-multihop 2
network 198.51.100.0 mask 255.255.255.0这段配置让本地路由器和上游运营商建立 BGP 邻居关系,一旦链路异常,路由表自动刷新,流量重定向。
别忘了内部网关的健壮性
外网通了,内网也不能掉链子。OSPF 或 IS-IS 这类动态路由协议,在数据中心内部同样重要。假设两台核心交换机之间的链路断了,OSPF 能在几秒内重新计算路径,把流量导向备用链路。
但要注意,区域划分不合理或 hello 报文间隔太长,都会拖慢收敛速度。建议将骨干区(Area 0)保持简洁,避免引入过多非关键节点。
监控与演练才是最后防线
再好的设计,不验证也是纸上谈兵。定期模拟链路中断,看路由是否如期切换。可以用防火墙策略临时阻断某条路径,观察日志中路由变化和业务响应时间。
有家公司做过测试,发现备用线路虽然通,但 MTU 设置不对,导致大包分片,性能直接打五折。这种问题,只有真跑一遍才能暴露。
真正的高可用,不是不出问题,而是出问题时没人知道。