구글이 최신 인공지능(AI) 모델 제미나이 2.5를 공개했다. 이는 지금까지 구글이 공개한 AI 중 가능 뛰어난 지능을 가진 것으로 지금까지 등장한 다른 AI 모델들을 능가하는 성능을 보였다.
25일(현지시간) 구글은 자사 블로그를 통해 제미나이 2.5 프로를 처음으로 공개했다. 지난해 12월 제미나이 2.0을 공개한지 불과 3개월 만에 한 단계 발전된 모델을 내놓은 것이다.
구글은 “제미나이 2.5는 우리의 가장 지능적인 모델”이라며 “점점 더 복잡해지는 문제를 해결하기 위해 설계된 사고력이 있는 모델”이라고 소개했다. 오픈AI의 o1 시리즈처럼 생각하는 능력을 갖춘 모델이라는 설명이다.
구글은 제미나이 2.5 제품군의 첫 번째 모델로 ‘제이나이 2.5 프로’의 실험 버전을 먼저 공개했다.
제미나이 2.5 프로 실험버전은 챗봇의 성능을 평가하는 챗봇 아레나 LLM 리더보드에서 출시직후 1443점을 기록해 1등을 기록했다. 2위인 xAI의 그록과 39점의 큰 격차를 보였다.
거대언어모델(LLM) 연구분야의 석학인 크리스토퍼 매닝 교수는 이날 자신의 X 계정에 “구글이 돌아왔다!”면서 “구글의 새로운 모델이 챗봇 아레나에서 새로운 가능성을 열었다”며 높이 평가했다.
구글은 제미나이 2.5 프로 실험 모델이 자사의 이전 최첨단 AI 모델과 경쟁사의 주요 AI 모델을 여러 벤치마크에서 능가했다고 주장했다. 수학능력을 평가하는 AIME2024에서 86.7%를 기록해서 87.3%를 기록한 오픈AI의 o3미니 83.9%를 기록한 xAI의 그록3 베타, 79.8%를 기록한 딥시크 R1을 능가했다. 과학능력을 평가하는 모델에서도 주요 경쟁사들을 압도했다.
코드 편집을 평가하는 테스트에서 74%를 기록 오픈AI(60.4%)와 앤스로픽 클로드 3.7소넷(64.9%), 딥시크 R1(56.9%)를 모두 넘었다.
가장 눈에 띄는 것은 AGI를 달성했는지 테스트 하기 위해 만들어진 ‘인류의 마지막 시험’ 벤치마크에서 높은 점수를 기록한 것이다. 18.8%를 달성해 14%의 오픈AI o3미니, 8.9%의 클로드 3.7소넷, 8.6%의 딥시크R1을 큰 차이로 능가했다.
구글은 제미나이 2.5 프로가 출시 시점에서는 100만 토큰의 콘텍스트 윈도를 지원하며, 향후 200만 토큰까지 처리할 수 있다고 확장할 예정이라고 밝혔다.
제미나이 2.5 프로 실험 모델은 이날부터 구글의 개발자 플랫폼인 구글 AI 스튜디오와 월 20달러의 구독 서비스인 제미나이 어드밴스드에서 이용할 수 있다.
[실리콘밸리=이덕주 특파원]