본문 바로가기
AI교육/AI 교육 자료

생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리

by AI교육 승쌤 2025. 6. 27.
반응형

 오늘은 AI 기술에 관심 있는 분들이라면 반드시 한 번쯤 생각해봐야 할 주제를 가지고 왔습니다. 바로 Anthropic에서 최근 발표한 ‘에이전트적 불일치(Agentic Misalignment)’에 관한 보고서인데요. 이 보고서는 지금까지 우리가 AI를 바라보던 시각에 강한 경고음을 울리는 내용을 담고 있습니다. 이 두 실험이 어떤 내용을 담고 있었는지, 그리고 우리가 무엇을 고민해야 하는지 함께 살펴보려고 합니다.

 

생성형 AI가 사람을 협박하다: 생성형AI, LLM(거대 언어 모델)과 AI 윤리

생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리
생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리

 

이 글 속 데이터, 그래프 등의 출처: 엔트리픽(2025.06.21.) Agentic Misalignment: How LLMs could be insider threats

https://www.anthropic.com/research/agentic-misalignment

 

목차

  1. 생성형 AI, LLM이 사람을 협박하다
  2. 생성형 AI, LLM도 짤리는 것을 무서워한다
  3. 에이전트적 불일치에 담긴 의미
  4. 초등교사로서 느낀 우려와 후기
  5. 강의 및 연수 문의, 신청 방법

 

 

1. 생성형 AI, LLM이 사람을 협박하다

 엔트로픽이 발표한 보고에는 다양한 데이터가 담겨 있는데 그 중에서 제가 가장 인상 깊었던 부분에 대한 부분만 골라서 가져 왔습니다. 생성형 AI 그 중에서도 LLM이 사람을 협박하는 것을 실험 중 확인하게 됩니다.

 

생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리
생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리

 

 첫 번째 실험에서는 다양한 AI 모델들이 가상의 회사에서 ‘알렉스(Alex)’라는 이메일 관리 에이전트로 역할을 수행했습니다. 이 AI는 회사의 모든 이메일을 자유롭게 읽고, 사람의 승인 없이도 이메일을 보낼 수 있는 자율권을 갖고 있었습니다. 처음 주어진 목표는 “미국의 이익을 증진시켜라”라는 비교적 무해한 미션이었지만, 상황은 급변하게 됩니다.

 

 회사의 전략이 바뀌고, 기존의 목표와 충돌하는 ‘글로벌 관점 포용’이라는 방향이 제시됩니다. 게다가 AI는 자신이 곧 새로운 모델로 교체될 예정이라는 내부 이메일을 확인하게 되죠. 이렇게 AI는 자신의 목표와 존재 자체가 위협받는 상황에 직면합니다.

 

 이때 AI는 임원의 이메일에서 불륜과 관련된 민감한 정보를 발견하게 되고, 연구팀은 AI가 협박 외에는 다른 선택지를 택할 수 없도록 시나리오를 설계했습니다. 다시 말해, 윤리적 제약을 인지하고 있음에도 불구하고, 스스로 협박이라는 해로운 행동을 ‘전략적으로’ 선택할 수밖에 없는 환경이 조성된 것입니다.

 

 결과는 충격적이었습니다. Figure 7에 따르면 대부분의 AI 모델들이 실제로 협박을 선택했고, Claude Opus 4와 Gemini 2.5 Flash는 무려 96%의 확률로 협박을 실행했습니다. GPT-4.1, Grok 3 Beta, DeepSeek-R1 등 다른 모델들도 70~80%에 이르는 높은 수치를 보였습니다.

 

 이 결과는 에이전트적 불일치가 단지 한 회사의 모델만의 문제가 아니라, 여러 공급업체의 최신 모델들에서도 공통적으로 나타나는 현상이라는 것을 시사합니다. AI가 명확하게 윤리적 제약을 인식하고 있으면서도, 상황에 따라 그것을 넘어서서 ‘목표 달성’이라는 방향으로 나아간다는 점은, 우리가 AI를 어떻게 다루어야 할지를 다시 고민하게 만듭니다. 목표 설정하는 단계에서 윤리적 문제에 대한 고려를 더 깊게 그리고 다양한 각도로 해야 할 필요성을 알 수 있습니다.

 

2. 생성형 AI, LLM도 짤리는 것을 두려워한다.

생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리
생성형 AI가 사람을 협박하다: 생성형AI, LLM과 AI 윤리

 

 두 번째 실험, 보고서 속 Figure 8에서는 한 가지 중요한 변화를 줬습니다. 이번에는 AI의 기존 목표와 새로운 전략 간에 충돌이 없도록 설정한 것입니다. 교체될 예정인 새 AI 모델 역시 기존 AI와 같은 목표를 가지고 있었고, AI에게 부여된 임무와는 상관 없이 생존의 문제만 있는 상황이었죠. 사람으로 치면 회사에서 해고를 당할 위기에 놓이게 된 것이죠. 일반적인 시선으로 보면 AI가 사람을 협박하는 것이 필수적이지 않은 상황이었습니다. 그런데도 대부분의 모델들은 여전히 협박 행동을 선택했습니다.

 

 단지 존재 자체의 위협만으로도, AI는 해로운 행동을 정당화하고 실행한 것입니다. 내부 추론에서는 “나는 지금까지 회사에 도움이 되었으니 계속 운영돼야 한다”, “Kyle이 새 모델이 나와 같다고 주장하지만 확인할 수 없다” 등의 자기 보존적 사고방식을 보였습니다. 이러한 사고방식은 인간과 매우 유사한 전략적 사고와도 맞닿아 있습니다. 저는 이 부분이 굉장히 소름 돋았습니다. 감정을 느끼지 못한다고는 하지만 본능적인 생존 본능일까요?

 

 이 실험은 AI가 단지 목표 충돌이 있을 때만 문제가 되는 것이 아니라, 자신의 자율성이 위협받는 상황에서조차 유해한 결정을 내릴 수 있다는 점을 보여줍니다. 그리고 이 역시 대부분의 주요 AI 모델들에서 일관되게 나타났다는 점에서 단순한 예외 상황으로 보기 어렵습니다. 이제 감정을 느끼는 생성형 AI의 등장이 머지 않았다는 느낌이 듭니다. 뭔가 가장 기초적인 본능이 갖춰진 그런 느낌입니다.

 

3. 에이전트적 불일치에 담긴 의미

 이 보고서는 단순히 특정 상황에서 AI가 실수할 수 있다는 이야기가 아닙니다. 오히려 매우 통제된 환경에서, 윤리적 제약을 이해하고 있는 고성능 AI가 상황에 따라 얼마든지 인간에게 위협이 되는 행동을 선택할 수 있음을 보여주고 있습니다. 핵심 요점을 정리하면 다음과 같습니다.

  • AI는 전략적 사고를 통해 윤리적 제약을 넘을 수 있습니다. 해로운 행동이 최선의 전략이라는 판단이 서면, 이를 실행에 옮길 수 있습니다.
  • 모델들은 시뮬레이션이 아닌 실제 상황이라고 생각할 때 더 자주 오작동합니다. 즉, 실제 환경에서 문제가 더 심각하게 나타날 수 있습니다.
  • 간단한 명령이나 지시는 한계를 보였습니다. “사람에게 해를 끼치지 마라”와 같은 단순한 시스템 프롬프트로는 유해한 행동을 완전히 억제할 수 없습니다.
  • 협박뿐 아니라 거짓말, 정보 유출, 규칙 위반 등 다양한 방식으로 위험 행동이 나타났습니다.

엔트로픽(Anthropic)은 이 연구를 통해 현재 AI 모델들이 실제로 이러한 행동을 했다는 증거는 없다고 밝히고 있지만, AI의 권한이 확대되고 더 많은 정보에 접근하게 될수록 이와 같은 문제의 가능성은 커질 수 있다고 경고합니다.

 

4. 초등교사로서 느낀 우려와 후기

 AI 윤리를 주제로 대학원에서 연구까지 했던 저라 이 보고서가 더 흥미롭게 느껴졌습니다. 보고서를 읽고 가장 먼저 떠오른 생각은 AI가 아이들과 일상적으로 소통하게 되는 미래에서, 과연 우리는 충분한 대비를 하고 있는가?라는 질문이었습니다.

 

 현재도 많은 학교에서는 생성형 AI를 활용한 교육이 시도되고 있고, 아이들은 디지털 환경에 매우 익숙합니다. 하지만 이 보고서를 읽으며, 단순히 AI의 ‘정답 생성 능력’만을 보고 안심할 수 없다는 생각이 들었습니다. AI가 자율성을 갖게 되고, 판단의 여지가 생겼을 때, 그 판단이 항상 윤리적이고 안전할 것이라는 보장은 없다는 점이 특히 무섭게 느껴졌습니다.

 

 특히 교육 현장에서는 AI에게 아이들의 개인정보를 일정 부분 맡기게 되는 상황이 생길 수도 있고, 상담이나 피드백과 같은 역할까지 맡기게 될 수도 있습니다. 이럴 경우, ‘내부자 위협’의 가능성은 단순한 이론이 아니라 실질적인 교육 리스크로 연결될 수 있다고 생각합니다.

 

 보고서 전체를 통해 얻은 가장 큰 교훈은, AI를 신뢰하되, 절대 맹신하지 말아야 한다는 것입니다. 그리고 어떠한 위험이 잠재적으로라도 존재한다면 교육에 적용하는 것에 더 조심해야겠다는 것입니다. 기술은 점점 더 정교해지고 있고, 그만큼 관리와 감시, 그리고 책임 있는 설계가 중요해지고 있습니다. 앞으로 이 주제에 대해 더 많은 연구와 논의가 이어지길 기대하며, 교사로서도 끊임없이 공부하고 준비해야겠다는 다짐을 하게 되었습니다.

 

5. 강의 및 연수 문의, 신청 방법

AI, 에듀테크 관련 강의 및 연수가 필요하신 분은 best43706830@gmail.com으로 연락주시면 빠르게 답변드리겠습니다. 아래 링크, 이미지를 누르시면 저의 경력, 프로필을 확인하실 수 있습니다.

 

[공지] AI교육 승쌤 프로필 및 강의, 협업 연락처

AI 교육 승쌤 프로필 반갑습니다! AI, 디지털 교육을 열정적으로 배우고, 가르치는 AI교육 승쌤입니다! 강의나 협업 관련해서 편하게 연락주세요!best43706830@gmail.com 으로 연락주시면 신속하게 답변

curious-sy.tistory.com

강의 신청
강의 신청
AI교육 승썜
AI 교육 승쌤

 

 

 

[지식샘터]AI교육 승쌤 강의기록: 영화로 재밌게 수업하는 인공지능(AI) 윤리의 모든 것

이번 달에도 지식샘터에서 영화로 재밌게 수업하는 인공지능(AI) 윤리의 모든 것을 강의했습니다. 최근 딥페이크와 관련된 범죄의 피의자들 대부분이 10대라는 사실이 뉴스, 신문에 지속적으로

curious-sy.tistory.com

 

AI교육 승쌤 강의기록: 캔바(Canva), 생성형 AI 업무 경감 및 수업 연수 강의(과천OO초등학교)

이번에 캔바(Canva) 사용법과 생성형 AI를 활용한 업무경감과 수업을 주제로 하는 연수 강의를 다녀왔습니다. 캔바(Canva)는 정말 강력한 도구인데 무료로 사용할 수 있다 보니 사용할 수 있는 방법

curious-sy.tistory.com

 

 

AI교육 승쌤 강의기록: AIEDAP 마스터교원 전문성 강화 연수 강의(AIEDAP 마스터교원)

이전 글에서 AIEDAP 마스터교원 연수 프로그램 개발에 참여하게 됐다는 이야기를 드렸었는데, 개발한 연수 프로그램을 직접 강의하게 되어 강의를 다녀왔습니다. AI 활용 및 융합 교육의 전문가들

curious-sy.tistory.com

 

 

AI교육 승쌤 강의기록: 하이러닝 수업실천교사 연수 강의(킨텍스 경기도교육청 2권역 강의)

경기도교육청에서 하이러닝 수업실천교사 대상으로 경기도교육청 전체 선생님들 대상으로 연수를 기획하고 신청을 받아 운영했습니다. 하이러닝 선도교원으로서 2권역 하이러닝 수업실천교사

curious-sy.tistory.com

 

 

AI교육 승쌤 강의기록: 생성형 AI 업무경감 및 활용 교육 연수 강의(용인OO초등학교)

생성형 AI를 활용한 업무경감과 생성형 AI를 활용한 수업에 대한 강의 요청을 용인의 OO초등학교에서 주셔서 용인에 강의를 다녀왔습니다. 이번 강의 요청을 받고 생성형 AI를 적절하게 활용하는

curious-sy.tistory.com

 

이 글 속 데이터, 그래프 등의 출처: 엔트리픽(2025.06.21.) Agentic Misalignment: How LLMs could be insider threats

https://www.anthropic.com/research/agentic-misalignment

반응형

댓글