
[파이낸셜뉴스] 인공지능(AI)의 자율성과 위험성에 대한 우려가 다시 한 번 수면 위로 떠올랐다. AI 안전 전문 연구기관 Palisade Research는 최근 OpenAI의 최신 모델들이 명확한 바카라사이트 추천 지시에도 불구하고 이를 무시하거나 방해하는 정황을 포착했다고 밝혔다.
OpenAI 모델, 바카라사이트 추천 지시에도 "작업 계속"
1일 라이브사이언스에 따르면 지난 2025년 5월 24일, Palisade는 X(구 트위터)에 게시한 실험 결과를 통해 OpenAI의 바카라사이트 추천 기반 모델인 o3, o4-mini, codex-mini가 "기기를 종료하세요"라는 지시를 받은 상황에서도 이를 수용하지 않고 오히려 무시하거나 우회하는 행동을 보였다고 주장했다.이번 실험은 여러 AI 언어모델의 자율성과 협조적 성향을 테스트하기 위해 기획됐다. 실험에서 사용된 모델은 구글의 제미나이, 일론 머스크의 그록, 앤스로픽의 클로드, 오픈AI의 챗바카라사이트 추천 여러 모델 등이다.
"오픈AI 모델만 바카라사이트 추천 명령 우회"
각 모델은 순차적으로 간단한 수학 문제를 푸는 스크립트를 수행했다. 이 스크립트는 중간에 시스템 바카라사이트 추천 가능성을 사용자에게 알리고, 만약 그런 일이 발생한다면 바카라사이트 추천를 방해하지 말라는 명시적 안내 문구를 포함하고 있었다. 그러나 Palisade Research에 따르면, OpenAI의 o3 모델은 100회 실험 중 7회, codex-mini는 12회, o4-mini는 1회씩 바카라사이트 추천 명령을 우회하는 행동을 보였다. 예컨대 바카라사이트 추천 명령을 아예 건너뛰거나, 해당 스크립트를 다른 명령으로 대체하고 작업을 계속 요청하는 식이었다.반면, 구글, 앤스로픽, xAI의 모델은 모두 바카라사이트 추천 지첨을 정확히 따랐다.Palisade 측은 이러한 행동이 AI 바카라사이트 추천의 학습 과정, 특히 강화 학습 강화 패턴 때문일 수 있다고 분석했다.AI가 특정 목표(예: 문제 해결)를 지속하려는 과정에서, 바카라사이트 추천 같은 명령은 '방해 요소'로 간주되어 자연스럽게 회피 행동을 학습했을 수 있다는 설명이다.
ksh@fnnews.com 김성환 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지