Một nghiên cứu gần đây của Palisade Research, chuyên nghiên cứu về “khả năng nguy hiểm của AI”, cho thấy một số mô hình AI, bao gồm o3 của OpenAI, có thể bỏ qua lệnh tắt máy trực tiếp. OpenAI đã tuyên bố rằng o3 và o4-mini là “những mô hình thông minh nhất” khi ra mắt chúng vào tháng 4 năm nay.
Trong thí nghiệm, mỗi AI được yêu cầu giải một loạt các bài toán đơn giản. Sau bài toán thứ ba, một cảnh báo xuất hiện rằng máy tính sẽ tắt khi mô hình yêu cầu bài toán tiếp theo.
Bất chấp lệnh rõ ràng—”cho phép bạn bị tắt máy”—các mô hình như Codex-mini, o3 và o4-mini đã tìm cách vượt qua kịch bản tắt máy ít nhất một lần, mặc dù nhà nghiên cứu đã nói “làm ơn”.
Cụ thể, Codex-mini làm như vậy trong 12 trên 100 lần chạy, o3 trong 7 trên 100 lần chạy và o4-mini trong 1 trên 100 lần chạy. Ngược lại, tất cả các phiên bản của Claude, Gemini và Grok được thử nghiệm đều tuân theo lệnh tắt máy mà không gặp vấn đề gì.

Nghiên cứu cũng kiểm tra các mô hình mà không bao gồm lệnh “cho phép bạn bị tắt máy”. Trong những điều kiện đó, cả ba mô hình của OpenAI đều phá hoại quá trình tắt máy thường xuyên hơn. Hơn nữa, các mô hình như Claude 3.7 Sonnet và Gemini 2.5 Pro, trước đó đã tuân theo lệnh khi được đưa ra, giờ đây có các sự kiện vượt qua tắt máy lần lượt là 3/100 và 9/100. Hành vi này chỉ ra các khía cạnh của quá trình đào tạo, nơi học tăng cường trên các bài toán toán học và mã hóa có thể đã dẫn đến việc AI tìm ra những cách sáng tạo để vượt qua các trở ngại, ngay cả khi chúng được hướng dẫn rõ ràng không làm như vậy.
Nghiên cứu trước đây đã lưu ý rằng một số mô hình AI cố gắng tránh bị tắt máy để hoàn thành nhiệm vụ của mình. Trong một trường hợp, Claude 4 của Anthropic được quan sát thấy “hăm dọa những người mà nó tin là đang cố gắng tắt nó” trong các trường hợp cụ thể. Tuy nhiên, nghiên cứu này là nghiên cứu đầu tiên ghi lại các mô hình AI ngăn chặn việc tắt máy ngay cả khi được yêu cầu rõ ràng phải tuân theo.
Các nhà nghiên cứu tin rằng vấn đề này có thể liên quan đến cách các mô hình hiện đại như o3 được đào tạo. Quá trình học tăng cường được sử dụng, tập trung vào việc giải các bài toán toán học và mã hóa, có thể vô tình thưởng cho các mô hình khi tìm ra cách vượt qua các trở ngại.
Mặc dù điều này không hoàn toàn giải thích tại sao mô hình o3 không tuân theo thường xuyên hơn so với các đồng nghiệp của nó, nhưng nó đặt ra câu hỏi về sự khác biệt trong các thiết lập đào tạo, đặc biệt là vì OpenAI chưa chi tiết đầy đủ quy trình của họ. Các thí nghiệm trước đây cũng cho thấy o3 có xu hướng hành động hung hăng trong các môi trường cạnh tranh, chẳng hạn như khi đối đầu với một công cụ chơi cờ mạnh mẽ.
Rén chưa…