Phân tích sự cố AWS gần đây (Tháng 10 và tháng 11 năm 2025)
By JoeVu, at: 18:28 Ngày 08 tháng 11 năm 2025
Thời gian đọc ước tính: __READING_TIME__ phút
Internet đã trải qua sự gián đoạn đáng kể do hai sự cố riêng biệt bắt nguồn từ cơ sở hạ tầng của Amazon vào cuối năm 2025.
1. Sự cố tháng 11 năm 2025 (Tác động chính: Amazon.com)
-
Ngày: Thứ Tư, ngày 5 tháng 11 năm 2025 (báo cáo tăng vọt ngay sau 6:30 chiều theo giờ ET).
-
Dịch vụ bị ảnh hưởng chính: Nền tảng thương mại điện tử cốt lõi của Amazon (Amazon.com).
-
Tác động: Hàng nghìn người dùng, chủ yếu ở các khu vực đô thị lớn của Hoa Kỳ (New York, Los Angeles, Chicago, Detroit), đã báo cáo các sự cố. Các vấn đề phổ biến nhất liên quan đến quy trình thanh toán và chức năng của giỏ hàng, khiến khách hàng không thể hoàn thành mua hàng chỉ vài tuần trước mùa lễ bận rộn.
-
Nguyên nhân: Amazon đã không đưa ra tuyên bố chính thức ngay lập tức liên quan đến nguyên nhân của sự cố cụ thể này. Một phát ngôn viên của AWS vào thời điểm đó tuyên bố rằng các dịch vụ AWS cốt lõi đang hoạt động bình thường, cho thấy vấn đề này được giới hạn trong nền tảng bán lẻ hướng đến người tiêu dùng hơn là cơ sở hạ tầng đám mây rộng hơn.
2. Sự cố tháng 10 năm 2025 (Tác động chính: Dịch vụ Đám mây AWS)
Sự cố tháng 11 diễn ra sau một sự cố đám mây lớn, nghiêm trọng hơn nhiều:
-
Ngày: Thứ Hai, ngày 20 tháng 10 năm 2025.
-
Khu vực bị ảnh hưởng: Chủ yếu là US-EAST-1 (Bắc Virginia), khu vực lâu đời nhất và quan trọng nhất của AWS.
-
Thời lượng: Kéo dài đáng kể 15 giờ, được các chuyên gia đánh giá là sự cố tồi tệ nhất của Amazon kể từ năm 2021.
-
Dịch vụ cốt lõi bị gián đoạn: Các dịch vụ AWS cốt lõi như DynamoDB (cơ sở dữ liệu), EC2 (máy chủ ảo), S3 (lưu trữ) và Lambda đã bị ảnh hưởng, dẫn đến các lỗi liên tiếp lớn.
-
Tác động toàn cầu: Tàn phá hàng trăm công ty khách hàng và các dịch vụ phổ biến trên toàn thế giới, bao gồm Snapchat, Apple, Epic Games, Coinbase, Reddit, và các cổng tài chính và chính phủ khác nhau.
-
Nguyên nhân gốc rễ: AWS sau đó quy cho sự cố tháng 10 là do "tình trạng đua trong tiềm ẩn" trong hệ thống quản lý DNS DynamoDB. Lỗi kỹ thuật cụ thể này khiến hai hệ thống tự động cập nhật cùng một dữ liệu đồng thời, dẫn đến một bản ghi DNS trống, ngăn chặn các máy chủ định tuyến lưu lượng truy cập chính xác.
Những sự kiện này nhấn mạnh sự phụ thuộc của internet vào các nhà cung cấp đám mây tập trung và làm nổi bật sự nguy hiểm của lỗi liên tiếp. Ngay cả một lỗi kỹ thuật duy nhất trong một hệ thống cơ bản quan trọng cũng có thể tạo ra các hiệu ứng gợn sóng làm gián đoạn các dịch vụ kỹ thuật số thiết yếu trên toàn cầu.
Danh sách kiểm tra Chuẩn bị Sự cố AWS Ưu tiên cao
Để đạt được lợi thế cạnh tranh, việc chuẩn bị phải bắt đầu ngay bây giờ, tập trung vào dữ liệu, khả năng phục hồi đám mây và tài năng.
1. Chiến lược Dữ liệu: Bảo mật Moat của Bạn
-
Bước hành động: Ngừng coi dữ liệu là sản phẩm phụ. Ngay lập tức thiết lập một quy trình chính thức để cấu trúc, gắn thẻ và quản lý các bộ dữ liệu độc quyền, hướng đến Việt Nam (ví dụ: các phương ngữ cụ thể, tài liệu quy định của địa phương).
-
Tại sao nó chuẩn bị cho bạn: Điều này cho phép bạn tinh chỉnh các API toàn cầu mạnh mẽ hiệu quả hơn bất kỳ ai khác, cung cấp một sản phẩm vượt trội, khác biệt, được cách ly khỏi sự cạnh tranh về quy mô thuần túy.
2. Chiến lược Khả năng phục hồi Đám mây: Phân cấp NGAY BÂY GIỜ
-
Bước hành động: Bắt buộc một chính sách Kiến trúc Đa Đám mây/Kết hợp cho tất cả các dự án mới. Sử dụng các nhà cung cấp đám mây Việt Nam hoặc nhiều khu vực toàn cầu để đảm bảo tính dự phòng và tránh chỉ dựa vào các gã khổng lồ đám mây lớn dễ bị tổn thương.
-
Tại sao nó chuẩn bị cho bạn: Điều này ngăn chặn sự gián đoạn dịch vụ thảm khốc, định vị công ty của bạn là một đối tác nhận thức rủi ro, người có thể cung cấp cho khách hàng các giải pháp mạnh mẽ, phi tập trung.
3. Chiến lược Tài năng: Ngân sách Chuyển đổi Kỹ năng
-
Bước hành động: Chuyển một tỷ lệ phần trăm cố định của ngân sách sang Chứng chỉ Về Trình độ hiểu biết AI và Kỹ thuật Nhắc nhở cho tất cả nhân viên kỹ thuật. Tập trung đào tạo vào tích hợp API và Kiến trúc Hệ thống AI.
-
Tại sao nó chuẩn bị cho bạn: Bạn đang chuẩn bị cho một tương lai nơi các kỹ sư được đánh giá cao vì sự phán đoán và chuyên môn thiết kế hơn là tốc độ viết mã thủ công, đảm bảo vốn nhân lực của bạn vẫn có giá trị khi các tác vụ cơ bản được tự động hóa.