
베트남 출신 소프트웨어 엔지니어가 인공지능(AI)의 지능 한계를 측정하기 위한 새로운 평가 지표인 ‘인류의 마지막 시험(Humanity’s Last Exam, HLE)’ 개발을 주도해 세계적인 학술지 네이처(Nature)에 논문을 게재했다.
4일(현지시간) 베트남 매체 브이엔익스프레스 인터내셔널(VnExpress International) 보도에 따르면 미국 AI 스타트업 엔트로픽(Anthropic)의 엔지니어인 응우옌 뚱(Nguyen Tung)은 뉴욕 대학교(New York University) 연구진과 공동으로 이번 연구를 진행했다. 연구진은 AI가 인간의 지능을 추월하는 시점을 파악하기 위해 전문가 수준의 지식이 필요한 고난도 문제들을 집대성했다.
HLE는 수학, 물리, 철학, 법률 등 다양한 전문 분야를 망라하는 3,000개 이상의 주관식 및 객관식 문제로 구성됐다. 연구진은 기존의 AI 벤치마크들이 이미 상당 부분 정복됨에 따라, 일반적인 인터넷 검색으로는 답을 찾기 어려운 독창적이고 복잡한 추론 문제를 설계하는 데 집중했다고 밝혔다.
실제 테스트 결과 오픈AI(OpenAI)의 최신 모델인 o1과 엔트로픽(Anthropic)의 클로드 3.5 소네트(Claude 3.5 Sonnet) 등 현존하는 최고의 AI 모델들도 해당 시험에서 10% 미만의 정답률을 기록한 것으로 나타났다. 이는 현재의 AI 기술이 인간의 고도 전문 지식과 창의적 추론 영역에는 아직 도달하지 못했음을 의미한다.
응우옌 뚱(Nguyen Tung) 씨는 이번 연구가 AI의 급격한 발전에 따른 지능 측정의 공백을 메우기 위해 기획되었다고 설명했다. 그는 AI가 HLE에서 인간 전문가와 대등한 성적을 거두는 시점이 인간의 지능을 뛰어넘는 범용 인공지능(AGI) 시대의 서막이 될 것이라고 내다봤다.
학계에서는 이번 논문이 AI의 성능을 평가하는 새로운 표준을 제시했다는 평가를 내놓고 있다. 연구진은 AI 모델들이 학습 데이터에 포함된 정답을 단순히 기억하는 것을 방지하기 위해 정기적으로 문제 세트를 갱신하고 검증 절차를 강화할 계획이다.
