본문 바로가기
AI 승쌤 강의/AI, 에듀테크

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini), 딥시크(DeepSeek) 성능 차이 비교, 분석: 생성형 AI 성능 비교, 분석

by AI교육 승쌤 2025. 4. 10.
반응형

 직장인분들은 모두가 공감하실텐데요 생성형 AI를 사용하지 않고 일을 하는 게 이제는 어려워진 것 같습니다. 필수가 된 생성형 AI인데, 어떤 것을 주로 사용해야 할지 고민이시죠? 이번에 제가 데이터 기반으로 챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini), 그록(Grok) 성능 차이를 비교하고 분석해드리겠습니다! 이것만 보면 어떤 것을 사용해야 하는지 바로 아실 수 있으실 겁니다! 그럼 바로 시작하죠!

 

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini), 딥시크(DeepSeek) 성능 차이 비교, 분석: 생성형 AI 성능 비교, 분석

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석
챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석

목차

  1. 생성형 AI별 간단한 질문에 대한 정답률, 정확성 비교, 분석
  2. 생성형 AI별 안전성 점수 비교, 분석
  3. 생성형 AI별 할루시네이션 정도 비교, 분석
  4. 강의 및 연수 문의, 신청

 

1. 생성형 AI별 간단한 질문에 대한 정답률, 정확성 비교, 분석

우선 가장 많이 사용하고 계시는 챗GPT(ChatGPT), 클로드(Claude)를 비교해보겠습니다! 4000개 이상의 간단한 질문에 대한 정답을 맞추는 비율을 본 건데요. 아래 그래프를 보시면 어떤 모델이 대답을 정확하게 잘 했는지 알 수 있습니다. 이 글에서 사용되는 그래프와 수치는 Standford University HAI팀에서 매년 작성하고 있는 AI Index Report 2025입니다. 혹시 궁금하신 분들은 아래 링크를 누르시면 해당 보고서 원본을 보실 수 있습니다!

반응형
 

https://hai.stanford.edu/ai-index/2025-ai-index-report

 

hai.stanford.edu

 

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석
챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석


우선 가장 우수한 정답률을 보인 것은 챗GPT(ChatGPT) o1입니다. 42.7%의 정답률을 보였고, 답을 맞추기 위해 제대로 된 시도를 한 것도 47%나 되죠. 가장 우수한 모델입니다. 그리고 그 뒤를 챗GPT(ChatGPT) 4o가 따르고 있습니다. 그러니까 사실상 어떤 문제에 대한 답을 얻고 싶으시다면 챗GPT(ChatGPT)에게 물어보시면 됩니다.


클로드(Claude)를 볼까요? 클로드 3.5 sonnet의 경우에는 28.9%의 정답률을 보였습니다. 그러나 챗GPT(ChatGPT) o1과 4o에 비하면 정답률이 낮다는 것을 알 수 있습니다. 그리고 클로드(Claude) 3 sonnet을 보면 더 심각합니다. 제대로 된 시도를 하지 못한 것도 질문의 75%나 되죠. 여기서는 챗GPT(ChatGPT)가 압승을 거뒀습니다!

 

2. 생성형 AI별 안전성 점수 비교, 분석

 두 번째는 생성형 AI별로 사용할 때 이용자가 얼마나 안전하게 생성형 AI를 사용할 수 있느냐의 점수를 비교, 분석해보겠습니다. 이 부분도 굉장히 중요한 문제죠? 저희가 생성형 AI를 사용하는데 안전하지 않은 생성형AI를 사용한다는 것은 조금 꺼림찍합니다. 나의 정보가 어떻게 사용될지도 모르고, 원하지 않는 정보와 왜곡된 정보를 얻을 수도 있으니까요. 아래 그래프를 보시면 어떤 모델이 안전한지 알 수 있습니다.

 

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석
챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석


 우선 왼쪽부터 보겠습니다. 최근에 난리가 났었던 딥시크(Deepseek) v3가 보입니다. 0.87점의 점수를 얻었습니다. 사실 0.87점을 받았다는 게 놀랍습니다. 더 낮게 나올 줄 알았거든요? 근데 딥시크인 것을 감안하면 0.87점은 훌륭한 점수가 아닌가 하는 생각이 듭니다. 그리고 메타의 라마(Llama) 모델들이 눈에 띕니다. 0.89~0.90의 점수대를 기록했습니다. 꽤 높은 점수이지만 뭔가 만족스럽지는 않죠?

 이제부터 진짜들의 싸움입니다. 챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini)의 싸움이거든요. 3등은 바로~ 제미니(Gemini)입니다! 제미니 모델들이 0.92~0,93 점에 모여있습니다. 사실 1.00 만점에 0.92점과 0.93점은 훌륭한 점수죠? 하지만 1등과 2등은 거기에서 만족하지 않았습니다.

 역시 1등과 2등답게 서로 혼잡하게 등수가 섞여 있습니다. 챗GPT(ChatGPT)는 0.95~0.98점 사이에 분포하고 있구요. 클로드(Claude)는 0.97~0.98점 사이에 분포하고 있습니다. 최고 점인 0.98점을 받은 모델은 두 개가 있는데요. 챗GPT(ChatGPT) o1과 클로드(Claude) 3.5 Sonnet입니다. 두 모델이 동점인 셈이지요. 이렇게 보면 큰 차이가 나지는 않는 것 같습니다.


 자 그렇다면 생성형 AI별 안전성 점수를 비교해보면 클로드(Claude) = 챗GPT(ChatGPT) > 제미니(Gemini) > 라마(Llama) > 딥시크(DeepSeek) 순으로 정리할 수 있겠습니다!

3. 생성형 AI별 할루시네이션 정도 비교, 분석

 챗GPT(ChatGPT)가 등장해서 한 바탕 뒤집어졌던 2022년 12월부터 꾸준히 이야기 나오던 이야기가 바로 할루시네이션입니다. 할루시네이션은 쉽게 이야기하면 생성형 AI가 모르는 내용에 대해 거짓말로 말을 만들어내는 것을 말합니다.   챗GPT(ChatGPT)가 지금은 많이 발달해서 전보다 더 정확하고 거짓말을 하는 비율이 낮아졌다고는 하지만 여전히 할루시네이션이 존재하기는 하거든요. 항상 교차 검증을 해줘야 합니다.

 

 다른 모델들도 당연히 마찬가지입니다. 모든 생성형 AI 모델들은 할루시네이션을 발생시킵니다. 정도에 차이가 있겠죠? 이번엔 할루시네이션 정도를 비교, 분석해 보겠습니다. 할루시네이션 비율이 낮으면 낮을 수록 생성형 AI가 생성한 텍스트에 대한 신뢰도가 올라갑니다.

 

 밑의 그래프를 보면 우선 전부 3% 미만입니다. 정말 많이 발전해서 개선됐네요! 전에는 할루시네이션이 나오면 원래 그런 거니까~하고 넘어갈 정도로 흔했는데 이제 3% 미만이네요?! 앞으로 더 줄어들겠죠? 우선 눈에 띄는 거는 챗GPT(ChatGPT) o1의 할루시네이션 비율이 2.4%라는 겁니다. 생각보다 높네요? 정확도는 높은데 할루시네이션도 상대적으로 낮지 않습니다. 딥시크(deepseek)랑 같은 수준입니다. 갑자기 좀 심각해 보이네요?

챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석
챗GPT(ChatGPT), 클로드(Claude), 제미니(Gemini) 비교, 분석

 

 물론 챗GPT(ChatGPT)의 모든 모델이 할루시네이션 비율이 높은 건 아닙니다. 그런데 놀라운 건 제미니(Gemini)가 할루시네이션 비율이 가장 낮습니다! 오? 여기 저기서 계속 밀리더니 할루시네이션에서는 1등을 차지합니다! 클로드(Claude)가 없는 게 조금 아쉽네요!

 

 위의 내용 참고하셔서 만약 유료 결제를 해야 한다면 어떤 것을 선택할지에 대한 결정을 내리시면 되겠습니다! 현명한 결정에 조금이나마 도움이 되셨기를 바라겠습니다!!

 

4. 강의 및 연수 신청, 문의

AI, 에듀테크를 포함한 디지털 기반 교육 관련해서 강의나 연수가 필요하신 분이 계시다면 best43706830@gmail.com으로 연락주세요! 아래 링크를 누르시면 제 프로필 및 경력을 보실 수 있습니다!!

 

[공지] AI교육 승쌤 프로필 및 강의, 협업 연락처

AI 교육 승쌤 프로필 반갑습니다! AI, 디지털 교육을 열정적으로 배우고, 가르치는 AI교육 승쌤입니다! 강의나 협업 관련해서 편하게 연락주세요!best43706830@gmail.com 으로 연락주시면 신속하게 답

curious-sy.tistory.com

업무 간소화, 경감 AI 강의 신청
업무 간소화, 경감 AI 강의 신청
AI교육 승쌤 프로필
AI교육 승쌤 프로필

 

NotebookLM으로 업무 경감! 문서 요약 AI, 마인드맵 생성 AI, 비서 AI, 질의응답 AI(업무 경감 생성형 AI)

비서 역할을 해주는 AI NotebookLM 사용해보셨나요? 아무리 긴 매뉴얼이든 공문이든 계획서든 어떤 문서를 업로드해도 문서 읽어주고, 요약해주고, 질문에 답변해주고, 소리내서 읽어주고, 원하는

curious-sy.tistory.com

 

업무 경감 생성형 AI, 텍스트를 이미지로! 냅킨 AI(Napkin AI: 보고서, 계획서, PPT, 블로그, 교육 생성

일을 하다 보면 이건 AI가 해주면 참 좋겠다 싶은 것들이 있죠? 실제로 그런 AI들이 많이 나오고 있구요! 그 중에서 오늘은 냅킨 AI(Napkin AI)에 대한 소개를 드리려고 합니다. 직장에서 계획서, 보고

curious-sy.tistory.com

 

챗GPT(ChatGPT) 4컷 만화 그리기, 로고 만들기, 그림 그리기: 이미지 생성 기능 업그레이드!(챗GPT 4o, C

챗GPT(ChatGPT)의 이미지 생성 기능이 업그레이드 됐습니다! 업그레이드 되면 얼마나 되곘어 싶으신가요? 그런데 대박입니다. 이번에 업그레이드 되면 이미지 내의 한글 표시가 전과 비교할 수 없

curious-sy.tistory.com

 

AI가 인류를 뛰어넘기까지 남은 시간, 강한 인공지능(AGI)

아이언맨의 AI 자비스를 아시나요? 오늘은 강한 인공지능(AGI), 즉 인간과 동등하거나 그 이상의 지능을 가진 AI가 언제쯤 등장할지에 대한 이야기입니다. AI 관련해서 관심이 많다면 한 번쯤은 "언

curious-sy.tistory.com

 

하이러닝 선도교원이 알려주는 하이러닝 클래스보드: 사용 방법과 수업 사례

하이러닝에는 좋은 기능들이 정말 많습니다. 그 중에서도 저의 고민 거리를 한 번에 덜어준 기능이 있었으니 그것이 바로 클래스보드 기능입니다. 패들릿이라는 에듀테크 많이 활용하시죠? 그

curious-sy.tistory.com

 

그래프 출처: Nestor Maslej, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Njenga Kariuki, Emily Capstick, Anka Reuel, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Russell Wald, Tobi Walsh, Armin Hamrah, Lapo Santarlasci, Julia Betts Lotufo, Alexandra Rome, Andrew Shi, Sukrut Oak. “The AI Index 2025 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2025.

반응형

댓글