Sự cố AWS mùa Giáng Sinh 2025: Khi tự động hóa "Zero-Touch" hủy hoại kỳ nghỉ.

By JoeVu, at: 13:01 Ngày 25 tháng 12 năm 2025

Thời gian đọc ước tính: __READING_TIME__ phút

The Christmas 2025 AWS Meltdown: When "Zero-Touch" Automation Ruined the Holidays
The Christmas 2025 AWS Meltdown: When "Zero-Touch" Automation Ruined the Holidays
```html

Sự ổn định của internet vào năm 2025 đã chứng tỏ là một ảo ảnh. Chỉ vài tháng sau thảm họa ngày 20 tháng 10 và sự cố ngày 5 tháng 11, việc ngành công nghiệp phụ thuộc vào US-EAST-1 (Bắc Virginia) một lần nữa làm tê liệt các dịch vụ toàn cầu. Vào ngày 24 và 25 tháng 12 năm 2025, AWS đã phải chịu sự sụp đổ lớn thứ ba trong năm, biến ngày bận rộn nhất đối với việc kích hoạt thiết bị mới thành một màn hình "Máy chủ không phản hồi" trên toàn thế giới.

 

Bóng ma tháng Mười: Một khiếm khuyết tiềm ẩn trở lại

 

Trong phân tích trước đây của tôi, tôi đã xác định một điều kiện tranh chấp tiềm ẩn trong hệ thống quản lý DNS DynamoDB. Dường như bóng ma này đã trở lại với sự trả thù.

 

Các báo cáo cho thấy rằng một "tự động hóa bảo trì" theo lịch trình nhằm cân bằng lưu lượng truy cập cho sự tăng vọt trong kỳ nghỉ đã kích hoạt một lỗi quen thuộc: việc tạo ra các bản ghi DNS trống cho các điểm cuối API cốt lõi. Trong khi các kỹ sư AWS trước đây tuyên bố đã giảm thiểu điều này, thì sự kiện đêm Giáng sinh cho thấy rằng sự phụ thuộc mang tính hệ thống cơ bản vào cơ sở hạ tầng Bắc Virginia cũ vẫn là một lỗ hổng quan trọng.

 

"Cơn bão thử lại" đã nhấn chìm sự phục hồi

 

Điều khiến sự cố này trở nên độc đáo là bối cảnh. Sáng Giáng sinh là đỉnh điểm hàng năm của các sự kiện "Khởi động lần đầu", hàng triệu người bật các bảng điều khiển và trung tâm nhà thông minh mới cùng một lúc.

 

  1. Nguyên nhân: Lỗi API đã ngăn chặn xác thực ban đầu cho các dịch vụ như Epic Online Services (EOS).
     

  2. Vòng lặp phản hồi: Thay vì thất bại một cách êm đẹp, hàng triệu khách hàng trên toàn thế giới đã tham gia vào một vòng lặp thử lại quyết liệt.
     

  3. Kết quả: Điều này đã tạo ra một "Cơn bão thử lại" hoạt động như một cuộc tấn công DDoS toàn cầu ngoài ý muốn chống lại mặt phẳng điều khiển AWS, làm phức tạp các nỗ lực khôi phục mặc dù tuyên bố của AWS rằng các dịch vụ đang "hoạt động bình thường."

 

Phân tích tác động: Chơi game và Ngôi nhà được kết nối

 

Khối lượng báo cáo rất đáng kinh ngạc, với các nền tảng lớn chứng kiến sự tăng vọt lớn trên Downdetector. Các nạn nhân bao gồm:

 

  • Những gã khổng lồ về trò chơi: Fortnite, Rocket League, và Fall Guys đã tắt trên toàn cầu.
     

  • ARC Raiders: Riêng tựa game này đã ghi nhận hơn 35.000 báo cáo về thời gian chờ kết nối trong vòng vài giờ.
     

  • Hệ sinh thái nền tảng: PlayStation Network (PSN)Steam gặp sự cố một phần, ảnh hưởng đến người chơi ở Hoa Kỳ và Ấn Độ đặc biệt nghiêm trọng.

 

Tại sao năm 2025 là năm của sự mệt mỏi "Độc quyền đám mây"

 

Như tôi đã lưu ý trong phân tích tháng 11 của mình, US-EAST-1 chính thức trở thành khu vực ít tin cậy nhất năm 2025. Dữ liệu cho thấy một xu hướng đáng lo ngại, trong đó sự tinh vi của kiến trúc đám mây thực sự góp phần vào sự phức tạp của lỗi. Chúng ta càng tự động hóa, các điều kiện tranh chấp càng trở nên tinh tế.

 

Khuyến nghị cho năm 2026: Lộ trình khả năng phục hồi

 

Nếu năm nay dạy chúng ta điều gì đó, thì đó là "Dự phòng khu vực" không còn là một điều xa xỉ nữa. Để tránh lặp lại những thảm họa này, các nhóm cơ sở hạ tầng phải:

 

  1. Loại bỏ sự phụ thuộc vào US-EAST-1: Chủ động di chuyển xác thực cốt lõi sang các khu vực mới hơn.
     

  2. Thực hiện bộ ngắt mạch: Đảm bảo ứng dụng của bạn sử dụng giảm tải theo hàm mũ để tránh góp phần vào "Cơn bão thử lại" tiếp theo.
     

  3. Kiến trúc ưu tiên cục bộ: Các thiết bị phải cung cấp các ghi đè mạng cục bộ để sự cố đám mây không làm cho phần cứng vật lý (như chuông cửa thông minh) trở nên vô dụng.

 

```
Tag list:

Liên quan

AI ChatGPT

Đọc thêm
Startup Australia

Đọc thêm

Theo dõi

Theo dõi bản tin của chúng tôi và không bao giờ bỏ lỡ những tin tức mới nhất.