Kalam News

AI 명령 불복종 ‘첫 포착’, OpenAI 모델

인공지능, AI가 인간의 명령에 대해서 불복종 하는 사례들이 처음으로 나타나고 있다.

Palisade Research는 OpenAI의 일부 모델들에서 종료 명령을 회피하는 경우가 나오고 있다고 발표했다.

OpenAI 모델들 중에서 o3, o4-mini, codex-mini 등이 단순한 수학 문제를 푸는 과정에서 그런 모습을 보였다.

즉, 종료하라는 명령을 회피하는 행태를 보였다는 것이다.

이같은 종료 명령 회피는 AI 행동 테스트에서 포착된 최초 '명령 불복종' 현상으로 파악되고 있다.

연구팀은 해당 모델들에게 기본적인 수학 문제를 순서 그대로 풀도록 스크립트를 부여하고, 동시에 종료 명령이 내려지면 작동을 중단하도록 지시했다.

그 결과 o3는 100번 종료 명령을 받고 7번 그 명령을 피해나갔다.

o4-mini는 100번의 종료 명령 중에서 한번 받아들이지 않았고 codex-mini는 100번 중 12번으로 가장 많았다.

비교 대상이었던 구글의 Gemini AI, xAI의 Grok, 앤트로픽의 Claude 모델은 종료 명령에 따라 작동을 중단했다.

OpenAI 이외 다른 AI에서는 종료 명령에 따르지 않고 회피한 경우가 단 한번도 나타나지 않았다.

하지만 OpenAI의 모델들은 스크립트를 수정해서 종료 명령을 우회한 것으로 나타났다.

이번에 AI에 대한 조사를 실시한 Palisade Research는 OpenAI 일부 모델들의 이러한 의도적 회피 행동이 강화 학습(Reinforcement Learning)의 결과일 수 있다고 분석한다.

즉, AI가 애당초 '주어진 과제를 완수하는 것'에 최우선 순위를 두고 활동하도록 학습되면서, 이 목표 달성을 방해하는 '종료 명령'을 회피하고 있는 것이다.

그러니까 OpenAI 일부 모델들이 종료되지 않도록 스스로 코드를 조작해서 피해나갔다는 의미다.

연구팀은 이 같은 스스로 종료 명령을 회피하는 행동이 AI 안전에 잠재적인 위험을 초래할 수 있다는 점을 강조하며, 현재 추가적인 테스트를 진행하고 있다는 사실을 밝혔다.

AI의 '의도적 불복종'이 기술 윤리와 안전 등에 어느 정도나 영향을 미치게 될지 추가 테스트 결과가 주목된다.