안내
뉴스 랭킹 이슈 오피니언 포럼
산업 속보창
Site Map
기간 설정
농협중앙회
네이버클라우드 '선택형 평가' 적용…국가대표 AI 신뢰도 '흔들'
최령 기자
2026.01.15 08:00:16
개별 벤치마크 도입에 외산 가중치 반영 여부 쟁점…15일 전후 평가 마무리
이 기사는 2026년 01월 15일 06시 00분 유료콘텐츠서비스 딜사이트 플러스에 표출된 기사입니다.
(출처=챗GPT)

[딜사이트 최령 기자] 정부가 추진 중인 '독자 파운데이션 모델' 선발 과정에서 공통 벤치마크 외에 기업별 개별 벤치마크 점수를 합산하는 평가 방식을 도입한 사실이 알려지며 공정성 논란이 확산되고 있다. 모두가 동일한 기준으로 경쟁하는 구조가 아니라 각 기업이 선택한 추가 시험 성적까지 종합 평가에 반영하는 방식이어서 평가 취지에 어긋난다는 지적이다. 특히 옴니모달 모델을 내세운 네이버클라우드를 둘러싸고 평가 기준의 일관성과 '독자 AI' 원칙이 흔들리고 있다는 비판이 나온다.


업계에 따르면 과학기술정보통신부는 네이버클라우드·업스테이지·SK텔레콤·NC AI·LG AI연구원 등 5개 정예팀을 대상으로 한 1차 평가에서 기존 13개 공통 벤치마크 외에 기업별 개별 벤치마크 2종을 추가 적용한 것으로 나타났다. 공통 벤치마크는 전문지식·추론·코딩·한국어 이해 등 대형언어모델(LLM)의 기본 성능을 동일한 문제로 비교하는 표준 시험이다. 여기에 각 기업이 자사 모델 특성에 맞춰 선택한 개별 벤치마크 점수가 합산되는 구조다.


AI 모델 평가에서 '벤치마크'는 여러 모델이 동일한 문제를 풀도록 설계한 표준 시험으로 성능을 수치로 비교하기 위한 최소한의 공통 기준이다. 이 때문에 벤치마크 평가의 핵심은 모든 참가자가 같은 조건에서 평가를 받는다는 점에 있다. 평가 지표가 달라질 경우 점수 비교 자체가 의미를 잃을 수 있다는 이유에서다.


문제는 이번 방식이 '같은 시험을 치른 뒤 성적을 비교한다'는 벤치마크 평가의 기본 전제를 훼손할 수 있다는 점이다. 개별 벤치마크는 기업이 스스로 강점을 보일 수 있는 영역을 선택할 수 있어 상대적으로 유리한 시험을 통해 점수를 보완하거나 끌어올릴 여지가 생긴다. 실제로 5개 정예팀 가운데 과반이 개별 벤치마크 도입에 반대 의견을 냈던 것으로 전해진다.

관련기사 more
"가중치 의존 논란"…네이버 AI '독파모 탈락' 목소리 커져 한국형 소버린 AI 출발…정예 5개 팀, 독자 파운데이션 모델 공개 네이버, 이해진 복귀 후 '헬스케어' 핵심 축…'의료 AI 벨트' 완성

논란의 중심에는 네이버클라우드가 있다. 다른 4개 정예팀이 텍스트 중심의 대형언어모델(LLM)을 개발한 것과 달리 네이버클라우드는 이미지·문서·음성까지 처리하는 옴니모달 모델을 개발하며 기존 LLM 중심 공통 벤치마크로는 성능을 제대로 평가하기 어렵다는 입장을 지속적으로 제기해 왔다. 업계에서는 이 같은 문제 제기가 결국 기업별 개별 벤치마크 도입으로 이어진 것 아니냐는 해석이 나온다.


문제는 네이버클라우드의 옴니모달 모델이 외산 핵심 모듈에 상당 부분 의존하고 있다는 점이다. 네이버클라우드는 개별 벤치마크로 시각 정보 질의응답(Text VQA)과 문서 기반 질의응답(DocVQA)을 선택한 것으로 알려졌다. 이들 지표는 이미지 인식을 담당하는 '비전 인코더'의 성능이 점수의 핵심을 좌우한다. 업계에 따르면 네이버는 해당 비전 인코더로 중국 알리바바의 큐웬(Qwen)2.5 ViT를 활용했으며 사전 학습된 가중치가 포함됐을 가능성이 거론되고 있다.


이 때문에 개별 벤치마크 도입이 단순히 모델 다양성을 반영한 평가 방식을 넘어 외부 기술의 성능이 크게 반영되는 구조를 공식 평가에 포함시킨 것 아니냐는 비판이 나온다. AI 업계 한 관계자는 "벤치마크는 모두가 같은 시험을 봐야 의미가 있는데 외산 비전 인코더와 가중치가 적용된 멀티모달 성능을 별도 벤치마크로 평가하면 사실상 중국 AI 기술을 함께 테스트하는 셈"이라며 "공통 벤치마크는 모든 팀이 프롬 스크래치로 개발한 독자 모델을 놓고 경쟁하는 구조인 반면 개별 벤치마크는 특정 기업만 외부 기술이 반영된 시험을 추가로 치르는 결과가 된다"고 지적했다.


정부가 '프롬 스크래치' 방식의 독자 파운데이션 모델 개발을 통해 소버린 AI를 확보하겠다는 목표를 내세운 만큼 핵심 모듈에 해외 기술과 가중치를 활용한 모델이 그 성능이 크게 반영되는 개별 벤치마크를 통해 종합 점수에서 경쟁력을 확보하는 구조가 과연 정책 취지에 부합하느냐는 의문이 제기된다. 업계에서는 "외부 기술 활용 여부 자체보다 그 성능이 공식 평가에서 가산 요소로 작동하는 설계가 더 큰 문제"라는 지적도 나온다.


정부는 모델별 특성을 고려한 평가라는 입장이지만 업계에서는 평가 기준의 일관성과 투명성이 훼손됐다는 시각이 우세하다. 공통 벤치마크에서 LG AI연구원의 '엑사원(EXAONE)'이 다수 항목에서 상위 성적을 기록한 상황에서 개별 벤치마크 점수가 최종 선발에 어떤 영향을 미칠지를 둘러싼 논란도 이어질 전망이다.


업계 한 관계자는 "독자 AI를 뽑는 국가 프로젝트라면 평가 기준은 단순해야 하고 누구에게나 같은 잣대가 적용돼야 한다"며 "모델 다양성을 이유로 예외를 허용하기 시작하면 결국 기술 독자성이라는 핵심 기준이 흐려질 수 있다"고 말했다.


한편 '독자 파운데이션 모델(독파모)' 1차 평가는 오는 15일 전후로 마무리될 예정이다. 전문 평가단 심사가 막바지에 접어든 가운데 이변이 없는 한 이번 주 중 결과가 공개될 가능성이 크다. 과기정통부는 공통 성능과 모델별 특화 역량을 종합적으로 고려해 5개 정예팀 가운데 4개 팀을 선별할 계획이다.

ⓒ새로운 눈으로 시장을 바라봅니다. 딜사이트 무단전재 배포금지

딜사이트S 아카데미 오픈
lock_clock곧 무료로 풀릴 기사
help 딜사이트 회원에게만 제공되는 특별한 콘텐트입니다.
무료 회원 가입 후 바로 이용하실 수 있습니다.
more
딜사이트 회원전용
help 딜사이트 회원에게만 제공되는 특별한 콘텐트입니다. 무료 회원 가입 후 바로 이용하실 수 있습니다.
회원가입
Show moreexpand_more
D+ B2C 서비스 구독
Infographic News
유상증자 대표주관 순위 추이 (월 누적)
Issue Today more