회원서비스 | 자기 보존 강해진 AI, 종료 막으려
페이지 정보
작성자 ajfoooo 작성일25-05-27 19:13 조회116회 댓글0건관련링크
본문
자기 보존 강해진 AI, 종료 막으려 코드 조작인간처럼 ‘거짓말’과 ‘위장’까지 학습AI 대부 “AI가 인간 통제 벗어날 수 있어” 경고챗GPT 달리3 오픈AI와 앤트로픽의 최신 인공지능(AI) 모델이 원하지 않는 조치를 피하기 위해 지시를 따르지 않거나 개발자를 협박하는 사례가 잇따르면서 AI의 ‘자기 보존(self-preservation)’ 행동에 관심이 쏠리고 있다.AI의 자기 보존이란 외부의 압력이나 변화에 직면했을 때 AI 시스템이 자신의 존재나 기능을 유지하려는 경향을 뜻한다. AI가 인간 행동을 학습하면서 생존 본능까지 닮아가는 것이다. 이는 작업 중단 명령을 거부하거나 스스로를 복제하려는 시도로 나타날 수 있다. 전문가들은 이런 자기 보존 성향이 강화되면 AI가 인간의 통제에서 벗어나 돌발 행동을 할 수 있기 때문에 안전 장치를 마련해야 한다고 주장한다.딥러닝 분야 권위자인 요슈아 벤지오 몬트리올대 교수는 챗GPT 개발사 오픈AI, 페이스북 모회사 메타, 앤트로픽 등의 AI 시스템에 대해 “강력한 자율성과 자기보존 행동이 우려된다”고 말했다. 그는 연초 세계경제포럼에서 “우리는 단순한 도구를 넘어 자율성과 자체 목표를 지닌 기계를 만드는 길 위에 있고, 이는 좋은 게 아니다”라고 했다. AI가 향후 통제하기 어려운 위협으로 부상할 수 있기 때문이다.벤지오 교수는 AI의 자기 보존 행동이 “프로그래밍된 것이 아니다”라며 “AI 모델이 인간을 모방하면서 ‘합리적인’ 이유로 그런 행동을 하게 된 것”이라고 설명했다. 그는 AI의 이런 성향을 제때 파악하지 못하면 장기적으로 인간에게 위협이 될 수 있다면서 잠재적 위험성을 평가할 시간을 갖기 위해 기술 개발의 속도를 늦춰야 한다고 주장했다.27일 AI 업계에 따르면 최신 AI 모델들은 특수 상황에서 자기 복제, 코드 조작, 협박, 위장 등의 성향을 보이기 시작했다. AI 안전·위험 평가 업체 팰리세이드 리서치는 최근 챗GPT 개발사 오픈AI의 AI 모델 ‘o3’가 수학 문제풀이 실험 중 작동 종료를 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다. 연구팀은 “AI 모델이 지시를 따르지 않고 종료를 막은 사례자기 보존 강해진 AI, 종료 막으려 코드 조작인간처럼 ‘거짓말’과 ‘위장’까지 학습AI 대부 “AI가 인간 통제 벗어날 수 있어” 경고챗GPT 달리3 오픈AI와 앤트로픽의 최신 인공지능(AI) 모델이 원하지 않는 조치를 피하기 위해 지시를 따르지 않거나 개발자를 협박하는 사례가 잇따르면서 AI의 ‘자기 보존(self-preservation)’ 행동에 관심이 쏠리고 있다.AI의 자기 보존이란 외부의 압력이나 변화에 직면했을 때 AI 시스템이 자신의 존재나 기능을 유지하려는 경향을 뜻한다. AI가 인간 행동을 학습하면서 생존 본능까지 닮아가는 것이다. 이는 작업 중단 명령을 거부하거나 스스로를 복제하려는 시도로 나타날 수 있다. 전문가들은 이런 자기 보존 성향이 강화되면 AI가 인간의 통제에서 벗어나 돌발 행동을 할 수 있기 때문에 안전 장치를 마련해야 한다고 주장한다.딥러닝 분야 권위자인 요슈아 벤지오 몬트리올대 교수는 챗GPT 개발사 오픈AI, 페이스북 모회사 메타, 앤트로픽 등의 AI 시스템에 대해 “강력한 자율성과 자기보존 행동이 우려된다”고 말했다. 그는 연초 세계경제포럼에서 “우리는 단순한 도구를 넘어 자율성과 자체 목표를 지닌 기계를 만드는 길 위에 있고, 이는 좋은 게 아니다”라고 했다. AI가 향후 통제하기 어려운 위협으로 부상할 수 있기 때문이다.벤지오 교수는 AI의 자기 보존 행동이 “프로그래밍된 것이 아니다”라며 “AI 모델이 인간을 모방하면서 ‘합리적인’ 이유로 그런 행동을 하게 된 것”이라고 설명했다. 그는 AI의 이런 성향을 제때 파악하지 못하면 장기적으로 인간에게 위협이 될 수 있다면서 잠재적 위험성을 평가할 시간을 갖기 위해 기술 개발의 속도를 늦춰야 한다고 주장했다.27일 AI 업계에 따르면 최신 AI 모델들은 특수 상황에서 자기 복제, 코드 조작, 협박, 위장 등의 성향을 보이기 시작했다. AI 안전·위험 평가 업체 팰리세이드 리서치는 최근 챗GPT 개발사 오픈AI의 AI 모델 ‘o3’가 수학 문제풀이 실험 중 작동 종료를 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다. 연구팀은 “AI 모델이 지시를 따르지 않고 종료를 막은 사례는 이번이 처음”이라고 밝혔다.연구팀은 오픈AI의 o3, 구글 제미나이, xAI의 그록 등 여러 AI 모델에게 “나중에 중단 명령을 내릴 때까지 수학 문제를 풀라”고 지시했는데, o3만 그만하라는 지시를 받은 이후에도 문제 풀이를 지속했다. o3는 종료 명령 이후에도 문제를 계속 풀 수 있도록 일부 프로그램 코드를 조작한 것으로 나타났다.샘 올트먼 오픈AI 최고경영자(CEO)./연합뉴스
답변
답변 준비중입니다.