Khi Mây Tối Sầm: Bài Học Từ Sự Gián Đoạn Dịch Vụ Của Google Tháng 6 Năm 2025

By JoeVu, at: 15:16 Ngày 15 tháng 6 năm 2025

Thời gian đọc ước tính: __READING_TIME__ minutes

When the Cloud Goes Dark: Lessons from the Google Outage of June 2025
When the Cloud Goes Dark: Lessons from the Google Outage of June 2025

Vào ngày 12 tháng 6 năm 2025, phần lớn internet đã lặng lẽ (rồi sau đó ầm ĩ) bị gián đoạn.

 

Một sự cố gián đoạn lớn trong các dịch vụ Google Cloud đã làm tê liệt hàng chục nền tảng lớn, bao gồm Gmail, Google Drive, Spotify, Discord, Cloudflare, Character.AI, và thậm chí cả một phần của OpenAI. Trong gần ba giờ, người dùng trên toàn thế giới đã gặp phải lỗi, yêu cầu thất bại và gián đoạn dịch vụ hoàn toàn.

 

Khi các nhóm kỹ thuật khẩn trương khắc phục sự cố và các meme lan truyền, một điều đã trở nên rõ ràng: ngay cả các hệ thống mạnh mẽ nhất cũng có thể bị lỗi.

 

Điều gì đã xảy ra?

 

Theo Google, vấn đề bắt nguồn từ một sự cố trong Quản lý danh tính và quyền truy cập (IAM)cơ sở hạ tầng lưu trữ đám mây của họ. Điểm yếu duy nhất đó đã gây ra hiệu ứng domino trên nhiều khu vực và dịch vụ được xây dựng trên Google Cloud.

 

Hàng nghìn công ty đã gặp phải thời gian ngừng hoạt động không phải vì chính họ đã bị lỗi, mà vì nhà cung cấp dịch vụ đám mây của họ đã bị lỗi.

 

Vì sao điều này quan trọng (đặc biệt nếu bạn đang xây dựng một cái gì đó)

 

Tại Glinteco, chúng tôi giúp các công ty khởi nghiệp và doanh nghiệp vừa và nhỏ xây dựng các giải pháp đám mây gốc, nhanh chóng và có khả năng mở rộng. Nhưng chúng tôi cũng thiết kế với ý nghĩ về sự thất bại. Các sự cố gián đoạn như thế này nhắc nhở chúng ta rằng:

 

1. Đám mây ≠ Bất khả chiến bại

 

Cơ sở hạ tầng đám mây mang lại cho chúng ta tốc độ, khả năng mở rộng và tính linh hoạt. Nhưng nó không loại bỏ rủi ro. Trên thực tế, nó còn giới thiệu các loại rủi ro mới.

 

2. Sự phụ thuộc vào một điểm duy nhất gây hại

 

Nếu toàn bộ ứng dụng của bạn chạy trên một khu vực duy nhất, một dịch vụ đám mây duy nhất hoặc một cơ sở dữ liệu duy nhất. Một vấn đề có thể làm tê liệt mọi thứ.

 

3. Giao tiếp với người dùng là một phần của hệ thống của bạn

 

Sự im lặng trong thời gian ngừng hoạt động còn tệ hơn chính thời gian ngừng hoạt động đó. Xây dựng hệ thống cảnh báo nội bộ và lên kế hoạch nhắn tin cho người dùng trước khi sự cố xảy ra.

 

Cách chúng tôi xây dựng khả năng phục hồi tại Glinteco

 

Khi làm việc với khách hàng, chúng tôi:

 

  • Đề xuất triển khai đa khu vực cho các ứng dụng có độ khả dụng cao
     

  • Sử dụng các chiến lược dự phòng (như xếp hàng, bộ nhớ đệm, chính sách thử lại)
     

  • Cung cấp sổ tay xử lý sự cố để các nhóm biết phải làm gì trong trường hợp áp lực
     

  • Giúp các nhóm thiết lập bảng điều khiển giám sát minh bạch để theo kịp khiếu nại của người dùng

 

 

Suy nghĩ cuối cùng

 

Đám mây vẫn là tương lai nhưng nó không phải là không thể bị tấn công. Nếu doanh nghiệp của bạn phụ thuộc vào công nghệ, nhóm của bạn cần phải nghĩ về khả năng phục hồi như một tính năng.

 

Bạn muốn được giúp đỡ trong việc kiểm tra kiến trúc hiện tại của mình hoặc lập kế hoạch cho một hệ thống chịu lỗi tốt hơn?

 

👉 Hãy nói chuyện.

 

Tag list:

Theo dõi

Theo dõi bản tin của chúng tôi và không bao giờ bỏ lỡ những tin tức mới nhất.