Coinbase 5月8日大面积宕机全解析：撮合引擎单点故障+AWS Kafka 控制面缺陷双重击垮系统】

Coinbase日前公布了5月8日系统宕机的事后复盘报告。报告指出，此次服务中断是由两大故障叠加引发的。其一，Coinbase 交易所的撮合引擎仅部署在 AWS 单一可用区的集群中，缺乏跨区自动故障转移机制。当 AWS 终止相关 EC2 实例后，五节点集群中有三节点下线，导致集群失去 quorum（多数节点）而无法继续工作。其二，AWS 托管的 Kafka 服务（MSK）控制面存在缺陷，分区的 Leader 无法自动重新选举，致使事件流基础设施进入“修复中”状态，进而波及报价、手续费服务以及账本管道等多个系统。

Coinbase 表示，交易在故障发生约8小时后恢复正常，全部系统在约20小时内恢复完毕。为防止类似事故再次发生，Coinbase 将采取以下改进措施：为撮合引擎引入跨可用区的热备设计；与 AWS 联合排查并修复 MSK 控制面的缺陷；并将现有的双可用区 Kafka 集群迁移至三可用区部署，以提升容灾能力。

yangshan

大家好，我是 Yangshan，币圈的老朋友。从2016年开始，我就踏入了这个充满机遇与挑战的区块链世界。作为一名资深玩家，我见证了比特币的起起落落，参与了以太坊的生态建设，也亲历了无数山寨币的狂欢与沉寂。币圈是一个充满奇迹的地方，但也是一个需要敬畏的市场。不要因为 FOMO（错失恐惧）而盲目追高，也不要因为 FUD（恐惧、不确定性和怀疑）而轻易放弃。只有不断学习、保持理性，才能在这个市场中长久生存。很高兴能在这里与大家相遇，希望我的经验和分享能为你带来价值。

发表回复取消回复

币易通——开启你的数字货币投资之旅

目录

分类

Connect