인공지능(AI) 모델 성능 평가 플랫폼 '아레나'가 설립 7개월 만에 2조원이 넘는 기업가치를 인정받으며 업계의 새로운 기준으로 부상하고 있다.

18일(현지시간) 테크크런치에 따르면, 아레나(구 LM 아레나)는 UC버클리 박사과정 연구 프로젝트에서 시작해 7개월 만에 기업가치 17억달러(약 2조4480억원)를 기록했다. 이 플랫폼은 AI 업계에서 사실상의 표준 순위표로 자리 잡았다.

아레나의 특징은 순위 평가 대상인 오픈AI, 구글, 앤스로픽 등 거대 AI 기업들로부터 직접 투자를 받았다는 점이다. 아나스타시오스 앙겔로풀로스 공동창업자는 인터뷰에서 "구조적 중립성"을 구축해 공정한 벤치마크를 만들겠다고 밝혔다.

아레나는 사용자들이 두 AI 모델의 답변을 비교해 승자를 선택하는 '블라인드 테스트' 방식으로 순위를 매긴다. 이는 개발사들이 특정 정답에 맞춰 모델을 과도하게 최적화할 수 있는 기존 정적 벤치마크 방식보다 조작이 어렵다는 장점이 있다.

현재 아레나의 전문가 순위표에서는 앤스로픽의 '클로드'가 법률 및 의료 분야에서 선두를 달리고 있다. 아레나는 향후 채팅 모델을 넘어 코딩, 에이전트 등 실제 세계의 과업을 평가하는 기업용 제품으로 사업을 확장할 계획이다.