Coinbase 5月8日大面积宕机全解析:撮合引擎单点故障+AWS Kafka 控制面缺陷双重击垮系统】

Coinbase日前公布了5月8日系统宕机的事后复盘报告。报告指出,此次服务中断是由两大故障叠加引发的。其一,Coinbase 交易所的撮合引擎仅部署在 AWS 单一可用区的集群中,缺乏跨区自动故障转移机制。当 AWS 终止相关 EC2 实例后,五节点集群中有三节点下线,导致集群失去 quorum(多数节点)而无法继续工作。其二,AWS 托管的 Kafka 服务(MSK)控制面存在缺陷,分区的 Leader 无法自动重新选举,致使事件流基础设施进入“修复中”状态,进而波及报价、手续费服务以及账本管道等多个系统。

Coinbase 表示,交易在故障发生约8小时后恢复正常,全部系统在约20小时内恢复完毕。为防止类似事故再次发生,Coinbase 将采取以下改进措施:为撮合引擎引入跨可用区的热备设计;与 AWS 联合排查并修复 MSK 控制面的缺陷;并将现有的双可用区 Kafka 集群迁移至三可用区部署,以提升容灾能力。

Facebook
Twitter
LinkedIn
Telegram

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注