Sự cố AWS kéo dài 13 giờ: Phân tích nguyên nhân và bài học
Một sự cố nội bộ nghiêm trọng đã xảy ra tại nền tảng đám mây Amazon Web Services (AWS) vào tháng 12 năm 2025, khiến hệ thống bị gián đoạn suốt 13 tiếng đồng hồ. Sự việc bắt nguồn từ một công cụ AI hỗ trợ lập trình có tên Kiro, được sử dụng để tự động xóa và tái tạo môi trường vận hành. Tuy nhiên, Amazon đã nhanh chóng lên tiếng khẳng định rằng nguyên nhân chính xuất phát từ quyền truy cập của con người, chứ không phải do AI mất kiểm soát như nhiều người lo ngại.
Diễn biến chi tiết của sự cố
Theo thông tin được công bố, sự cố khởi phát khi một kỹ sư AWS sử dụng AI agent lập trình Kiro để xử lý một vấn đề kỹ thuật phức tạp. Công cụ này được thiết kế với khả năng thực hiện các hành động dựa trên chỉ dẫn của người vận hành, bao gồm cả thao tác trực tiếp lên môi trường hệ thống. Trong quá trình xử lý, Kiro đã đưa ra quyết định "xóa và tái tạo môi trường" – một thao tác thường được áp dụng khi cần khởi tạo lại cấu hình hoặc làm sạch hệ thống.
Tuy nhiên, hành động này đã vô tình tác động trực tiếp đến AWS Cost Explorer tại một số khu vực ở Trung Quốc đại lục, khiến dịch vụ theo dõi và phân tích chi phí của khách hàng bị gián đoạn hoàn toàn. Thông thường, mọi thay đổi liên quan đến môi trường sản xuất của AWS đều phải trải qua quy trình phê duyệt hai người nhằm giảm thiểu rủi ro tối đa. Nhưng trong trường hợp này, kỹ sư liên quan lại được cấp quyền truy cập rộng hơn so với tiêu chuẩn thông thường, dẫn đến việc thay đổi có thể được triển khai mà không cần thêm một bước kiểm tra độc lập nào.
Hậu quả và phản ứng từ AWS
Khi môi trường bị xóa và tái tạo, hệ thống phụ thuộc vào đó đã ngừng hoạt động ngay lập tức. Quá trình khôi phục kéo dài đến 13 tiếng đồng hồ trước khi dịch vụ có thể trở lại bình thường. AWS mô tả đây là sự cố "rất hạn chế", không ảnh hưởng diện rộng đến toàn bộ hạ tầng của họ. Đáng chú ý, đây không phải là lần đầu tiên các công cụ lập trình của Amazon gặp sự cố. Trước đó, một vụ việc khác trong những tháng trước cũng liên quan đến công cụ Amazon Q Developer, nhưng may mắn là nó không tác động đến các dịch vụ AWS hướng tới khách hàng.
Phản hồi về các sự cố này, AWS nhấn mạnh rằng AI không tự ý hành động ngoài khuôn khổ được cấp quyền. Theo công ty, vấn đề chính nằm ở cấu hình quyền truy cập của người dùng, và tình huống tương tự hoàn toàn có thể xảy ra nếu thao tác được thực hiện bằng công cụ lập trình truyền thống. Amazon thậm chí còn cho rằng việc AI xuất hiện trong chuỗi sự kiện chỉ là "trùng hợp" ngẫu nhiên.
Những tranh luận nội bộ và biện pháp khắc phục
Dù vậy, một lãnh đạo cấp cao của AWS được dẫn lời nhận định rằng các sự cố này "nhỏ nhưng hoàn toàn có thể lường trước được". Nội bộ công ty cũng xuất hiện nhiều ý kiến thận trọng khi AI ngày càng được trao quyền tương đương với kỹ sư trong môi trường vận hành thực tế. Điều này đặt ra câu hỏi lớn về an toàn và kiểm soát trong tương lai.
AWS hiện đóng góp khoảng 60% lợi nhuận hoạt động của Amazon, khiến độ ổn định hệ thống trở thành ưu tiên hàng đầu không thể xem thường. Sau sự cố, công ty đã nhanh chóng tăng cường các biện pháp bảo vệ, bao gồm áp dụng rà soát đồng cấp bắt buộc và đẩy mạnh đào tạo nhân viên để ngăn chặn những sai sót tương tự.
Tương lai của AI trong lập trình và bài học rút ra
Song song đó, Amazon vẫn tiếp tục thúc đẩy việc sử dụng AI trong lập trình, với mục tiêu phần lớn kỹ sư sẽ áp dụng công cụ này thường xuyên. Tuy nhiên, sự cố kéo dài 13 giờ đã cho thấy một bài học quan trọng: khi AI được trao quyền hành động trực tiếp trên hệ thống sản xuất, một quyết định sai trong cấu hình hoặc kiểm soát truy cập có thể nhanh chóng biến thành gián đoạn thực tế với hậu quả khó lường.
Cuối cùng, sự việc này không chỉ làm dấy lên tranh luận về vai trò của AI trong công nghệ mà còn nhấn mạnh tầm quan trọng của việc quản lý quyền truy cập và các quy trình kiểm soát nội bộ chặt chẽ. Theo Nguyễn Hải, đây là hồi chuông cảnh tỉnh cho toàn ngành công nghệ trong kỷ nguyên số hóa.



