クラウドが暗転したとき:2025年6月グーグル障害からの教訓
By JoeVu, at: 2025年6月15日15:16
Estimated Reading Time: __READING_TIME__ minutes


2025年6月12日、インターネットの多くは静かに(そしてその後は大きく)崩壊しました。
Google Cloudサービスの大規模な大規模障害により、Gmail、Google Drive、Spotify、Discord、Cloudflare、Character.AI、さらにはOpenAIの一部を含む多数の主要プラットフォームがダウンしました。ほぼ3時間にわたり、世界中のユーザーはエラー、リクエスト失敗、そして完全なサービス停止を経験しました。
テクノロジーチームが奮闘し、ミームが飛び交う中、1つのことが明らかになりました。最も堅牢なシステムでさえ、失敗する可能性があるということです。
何が起きたのか?
Googleによると、問題は彼らのアイデンティティとアクセス管理(IAM)とクラウドストレージインフラストラクチャの問題に起因していました。その単一障害点が、Google Cloud上に構築された複数の地域とサービスにわたってドミノ効果を引き起こしました。
何千もの企業が、自社が失敗したのではなく、クラウドプロバイダーが失敗したためにダウンタイムを経験しました。
なぜこれが重要なのか(特に何かを構築している場合)
Glintecoでは、スタートアップや中小企業が高速でスケーラブルなクラウドネイティブソリューションを構築する支援を行っています。しかし、私たちは失敗を念頭に置いて設計も行っています。このような大規模障害は、私たちに次のようなことを思い出させます。
1. クラウド≠無謬
クラウドインフラストラクチャは、速度、スケーラビリティ、柔軟性を提供します。しかし、リスクを排除するわけではありません。実際、新たな種類のリスクが導入されます。
2. 単一ポイントの依存関係は有害
アプリケーション全体が単一のリージョン、単一のクラウドサービス、または単一のデータベース上で実行されている場合、1つの問題ですべてがダウンする可能性があります。
3. ユーザーとのコミュニケーションはスタックの一部である
ダウンタイム中の沈黙は、ダウンタイム自体よりも悪いです。問題が発生する前に、内部アラートシステムを構築し、ユーザーへのメッセージングを計画してください。
Glintecoにおけるレジリエンスのための構築方法
クライアントとの連携において、私たちは:
-
高可用性アプリケーションのためにマルチリージョン展開を推奨します。
-
フォールバック戦略(キューイング、キャッシング、リトライポリシーなど)を使用します。
-
チームがプレッシャー下で何をすべきかを知るためのインシデントプレイブックを提供します。
-
ユーザーの苦情に先んじるために、透明性の高い監視ダッシュボードをチームが設定するのを支援します。
最後に
クラウドはまだ未来ですが、万能ではありません。ビジネスがテクノロジーに依存している場合、チームはレジリエンスを機能として考慮する必要があります。
現在のアーキテクチャの監査またはより耐障害性の高いシステムの計画の支援が必要ですか?