Google: Gmail の停止は私たちの悪かった

クレジット:

さて、Googleが正式にリリースしました彼らの謝罪そして何が起こったのかの説明。それで一体何が起こったのでしょうか?まあ、彼らはめちゃくちゃでした、大したことはありません。定期的なサーバーのアップグレードで「負荷をわずかに過小評価し」、午後 12 時 30 分(太平洋標準時)に事態が混乱し始め、それは丸 100 分間続きました。

Google 側の話の一部は次のとおりです。

何が起こったかは次のとおりです。今朝 (太平洋時間)、定期的なアップグレードを実行するために、Gmail サーバーの一部をオフラインにしました。これ自体は問題ではありません。私たちは常にこれを行っており、Gmail の Web インターフェースは多くの場所で実行され、オフラインのときにトラフィックを他の場所に送信するだけです。

しかし、今わかっているように、最近の変更 (皮肉なことに、サービスの可用性を向上させるために設計されたもの) によって、リクエスト ルーター (Web クエリを応答のために適切な Gmail サーバーに送信するサーバー) にかかる負荷が若干過小評価されていました。太平洋時間午後 12 時 30 分頃、いくつかのリクエスト ルーターが過負荷になり、事実上システムの残りの部分に「トラフィックの送信をやめてください、遅すぎます!」と指示しました。これにより、残りのリクエスト ルーターに負荷が移され、さらにいくつかのリクエスト ルーターも過負荷になり、数分以内にほぼすべてのリクエスト ルーターが過負荷になりました。その結果、リクエストを Gmail サーバーにルーティングできなかったため、ユーザーはウェブ インターフェース経由で Gmail にアクセスできなくなりました。これらのリクエストは同じルーターを使用しないため、IMAP/POP アクセスとメール処理は引き続き正常に動作しました。

Gmail エンジニアリング チームは数秒以内に障害について警告を受けました (監視を非常に重視しています)。中心的な問題は利用可能な容量の不足であることを確認した後、チームは追加のリクエスト ルーターを多数オンラインに導入し (柔軟な容量は Google アーキテクチャの利点の 1 つです)、リクエスト ルーター全体にトラフィックを分散し、Gmail ウェブ インターフェースがオンラインに戻りました。 。