Khi Mây Tối Sầm: Bài Học Từ Sự Gián Đoạn Dịch Vụ Của Google Tháng 6 Năm 2025
By JoeVu, at: 15:16 Ngày 15 tháng 6 năm 2025
Thời gian đọc ước tính: __READING_TIME__ minutes


Vào ngày 12 tháng 6 năm 2025, phần lớn internet đã lặng lẽ (rồi sau đó ầm ĩ) bị gián đoạn.
Một sự cố gián đoạn lớn trong các dịch vụ Google Cloud đã làm tê liệt hàng chục nền tảng lớn, bao gồm Gmail, Google Drive, Spotify, Discord, Cloudflare, Character.AI, và thậm chí cả một phần của OpenAI. Trong gần ba giờ, người dùng trên toàn thế giới đã gặp phải lỗi, yêu cầu thất bại và gián đoạn dịch vụ hoàn toàn.
Khi các nhóm kỹ thuật khẩn trương khắc phục sự cố và các meme lan truyền, một điều đã trở nên rõ ràng: ngay cả các hệ thống mạnh mẽ nhất cũng có thể bị lỗi.
Điều gì đã xảy ra?
Theo Google, vấn đề bắt nguồn từ một sự cố trong Quản lý danh tính và quyền truy cập (IAM) và cơ sở hạ tầng lưu trữ đám mây của họ. Điểm yếu duy nhất đó đã gây ra hiệu ứng domino trên nhiều khu vực và dịch vụ được xây dựng trên Google Cloud.
Hàng nghìn công ty đã gặp phải thời gian ngừng hoạt động không phải vì chính họ đã bị lỗi, mà vì nhà cung cấp dịch vụ đám mây của họ đã bị lỗi.
Vì sao điều này quan trọng (đặc biệt nếu bạn đang xây dựng một cái gì đó)
Tại Glinteco, chúng tôi giúp các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ xây dựng các giải pháp đám mây gốc, nhanh chóng và có khả năng mở rộng. Nhưng chúng tôi cũng thiết kế với ý nghĩ về sự thất bại. Các sự cố gián đoạn như thế này nhắc nhở chúng ta rằng:
1. Đám mây ≠ Bất khả chiến bại
Cơ sở hạ tầng đám mây mang lại cho chúng ta tốc độ, khả năng mở rộng và tính linh hoạt. Nhưng nó không loại bỏ rủi ro. Trên thực tế, nó còn giới thiệu các loại rủi ro mới.
2. Sự phụ thuộc vào một điểm duy nhất gây hại
Nếu toàn bộ ứng dụng của bạn chạy trên một khu vực duy nhất, một dịch vụ đám mây duy nhất hoặc một cơ sở dữ liệu duy nhất. Một vấn đề có thể làm tê liệt mọi thứ.
3. Giao tiếp với người dùng là một phần của hệ thống của bạn
Sự im lặng trong thời gian ngừng hoạt động còn tệ hơn chính thời gian ngừng hoạt động đó. Xây dựng hệ thống cảnh báo nội bộ và lên kế hoạch nhắn tin cho người dùng trước khi sự cố xảy ra.
Cách chúng tôi xây dựng khả năng phục hồi tại Glinteco
Khi làm việc với khách hàng, chúng tôi:
-
Đề xuất triển khai đa khu vực cho các ứng dụng có độ khả dụng cao
-
Sử dụng các chiến lược dự phòng (như xếp hàng, bộ nhớ đệm, chính sách thử lại)
-
Cung cấp sổ tay xử lý sự cố để các nhóm biết phải làm gì trong trường hợp áp lực
-
Giúp các nhóm thiết lập bảng điều khiển giám sát minh bạch để theo kịp khiếu nại của người dùng
Suy nghĩ cuối cùng
Đám mây vẫn là tương lai nhưng nó không phải là không thể bị tấn công. Nếu doanh nghiệp của bạn phụ thuộc vào công nghệ, nhóm của bạn cần phải nghĩ về khả năng phục hồi như một tính năng.
Bạn muốn được giúp đỡ trong việc kiểm tra kiến trúc hiện tại của mình hoặc lập kế hoạch cho một hệ thống chịu lỗi tốt hơn?