2025年のクリスマス、AWSのメルトダウン:「ゼロタッチ」自動化がホリデーを台無しにした時
By JoeVu, at: 2025年12月25日13:01
Estimated Reading Time: __READING_TIME__ minutes
2025年のインターネットの安定性は幻想であることが証明されました。壊滅的な10月20日と11月5日のアウトレージのわずか数か月後、業界のUS-EAST-1(バージニア北部)への依存が再びグローバルサービスを麻痺させました。2025年12月24日と25日、AWSは今年3回目の大規模な崩壊に見舞われ、新しいデバイスのアクティベーションが最も忙しい日が、世界規模の「サーバーが応答していません」の画面に変わりました。
10月のゴースト:潜伏欠陥の再来
私の以前の分析では、潜伏的なレースコンディションをDynamoDB DNS管理システム内で特定しました。このゴーストが復讐を遂げて帰ってきたようです。
報告によると、休日の急増に対応するためのトラフィックのバランスを取るために予定されていた「メンテナンス自動化」が、おなじみのエラーを引き起こしました。それは、コアAPIエンドポイントに対する空のDNSレコードの作成です。AWSエンジニアは以前、これを軽減したと主張していましたが、クリスマスイブの出来事は、レガシーバージニア北部インフラストラクチャへの根本的なシステム依存が、依然として重大な脆弱性であることを示唆しています。
回復を溺れさせた「リトライストーム」
このアウトレージをユニークにしているのは、そのコンテキストです。クリスマスの朝は、「初回起動」イベントの年間ピークであり、何百万人もの人々が新しいコンソールやスマートホームハブを同時に起動します。
-
トリガー:APIエラーにより、Epic Online Services(EOS)などのサービスの初期認証が妨げられました。
-
フィードバックループ:世界中の何百万人ものクライアントが、正常に失敗する代わりに、積極的なリトライループに入りました。
-
結果:これにより、意図しないグローバルDDoS攻撃として機能する「リトライストーム」が発生し、AWSの主張にもかかわらず、回復努力を複雑にしました。サービスは「正常に動作していました」。
影響分析:ゲームとコネクテッドホーム
報告の量は非常に多く、主要なプラットフォームでDowndetectorで急増が見られました。犠牲者には以下が含まれます。
-
ゲーム大手:Fortnite、Rocket League、およびFall Guysがグローバルに停止しました。
-
ARC Raiders:このタイトルだけで、わずか数時間で35,000件以上の接続タイムアウトの報告がありました。
-
プラットフォームエコシステム:PlayStation Network(PSN)とSteamで部分的な停止が発生し、特に米国とインドのプレイヤーに大きな影響を与えました。
なぜ2025年が「クラウド独占」疲労の年なのか
11月の分析で述べたように、US-EAST-1は正式に2025年で最も信頼性の低いリージョンになりました。データは、クラウドアーキテクチャの洗練度が実際に障害の複雑さに貢献しているという憂慮すべき傾向を示しています。自動化すればするほど、レースコンディションはより微妙になります。
2026年の推奨事項:レジリエンスロードマップ
今年から何かを学んだとすれば、「リージョン冗長性」はもはや贅沢ではありません。これらの災害の繰り返しを避けるために、インフラチームは次のことを行う必要があります。
-
US-EAST-1の依存関係を排除:コア認証を新しいゾーンに積極的に移行します。
-
サーキットブレーカーの実装:アプリケーションが、次の「リトライストーム」に貢献しないように、指数的バックオフを使用していることを確認してください。
-
ローカルファーストアーキテクチャ:デバイスは、クラウド障害が物理ハードウェア(スマートドアベルなど)を使用不能にしないように、ローカルネットワークのオーバーライドを提供する必要があります。
```