Coinbase CEO:將重新評估架構取捨,大幅縮短未來宕機持續時間
事件背景
2025年5月9日,Coinbase首席執行官Brian Armstrong在X平臺發文,指出公司於前一天發生了一次服務中斷事件,此事件是公司無法接受的。
故障原因
故障的根本原因在於AWS數據中心多臺冷卻設備同時故障,導致一個機房過熱,進而引發系統異常。
架構設計侷限
Coinbase的多數系統已具備應對單個可用區宕機的冗餘能力,昨晚也確實正常運行。然而,中心化交易所的架構因追求低延遲和客戶共置而進行了特殊優化,難以同時兼顧可用區級別的容錯能力。
未來調整方向
儘管讓交易所具備抗可用區故障能力會帶來延遲問題並破壞客戶共置,團隊將重新評估這些架構取捨,目標是至少確保在需要切換可用區時,能夠大幅縮短宕機持續時間。
來源:https://www.panewslab.com/zh/articles/019e0a69-a11a-7205-bde6-f45ee2f1dbc0
