[딜사이트 최령 기자] "중국 AI 모듈을 차용한 게 문제가 아니다. 그 안에 담긴 데이터 집합을 뜻하는 '가중치'를 초기화하고 백지 상태에서 출발했다면 독자 모델로 볼 수 있다. 하지만 이를 그대로 갖다 쓰면 변주를 준 파생형 모델에 불과하므로, '프롬 스크래치'로 볼 수 없다. 네이버가 큰 감점을 받아야하는 이유다."(AI업계 전문가)
'가장 한국적인 AI'를 내세운 정부의 독자 AI 파운데이션 모델 프로젝트에서 네이버클라우드가 개발한 AI 모델이 논란의 중심에 섰다. 중국계 AI 모델과의 비전 인코더 가중치 유사성이 제기되며, 단순한 오픈소스 활용을 넘어 소버린 AI의 핵심인 학습 결과와 판단 기준까지 외부에 의존한 것 아니냐는 지적이다. 정부 프로젝트 취지상 외부 가중치 의존 논란은 기술적 선택의 문제를 넘어 기술 주권 논쟁으로 확산될 수 있다는 평가다. 이에 '독자 인공지능(AI) 파운데이션 모델'에서 탈락시켜야한다는 목소리가 크다.
AI업계에서는 업스테이지와 SK텔레콤은 학습 가중치면에서 단순 지원하거나 참조한 것이지만 네이버는 아예 외부 인코더를 채택했다는 점에서 결격사유가 크다는 지적이다. 오히려 네이버 측에서 업스테이자와 SK텔레콤을 논란에 포함시켜 소위 '물타기'를 통한 본질 흐리기에 나선 것이 아니냐는 이야기도 나온다. 사업 주체인 과학기술정보통신부가 '교통 정리'를 해야 하는 상황이지만 여전히 정부는 이렇다 기준점을 명확히 제시하고 있지 있지 않아 '네이버 감싸기'라는 볼멘소리도 많다.
업계에 따르면 네이버클라우드가 개발한 '하이퍼클로바X 시드 32B 싱크' 모델이 알리바바의 '큐웬(Qwen) 2.4' 계열 모델과의 비교에서 비전 인코더 가중치의 코사인 유사도와 피어슨 상관계수가 높다는 주장이 제기됐다. 코사인 유사도와 피어슨 상관계수는 두 벡터의 유사성과 상관성을 측정하는 지표로 가중치가 유사하게 형성됐을 가능성을 판단하는 근거로 활용된다.
네이버는 외부 비전 인코더 활용을 두고 "기술력 부족이 아닌 전략적 선택"이라는 입장이다. 네이버클라우드 관계자는 "파운데이션 모델은 입력된 정보를 해석하고 추론하며 결과를 만들어내는 핵심 영역으로 인간으로 치면 사고와 정체성을 담당하는 '두뇌'에 해당한다"며 "네이버는 이 핵심 엔진을 프롬 스크래치(From Scratch) 단계부터 100% 자체 기술로 개발해 한국어와 한국 사회의 복잡한 맥락을 가장 깊이 이해하는 독자 경쟁력을 확보해 왔다"고 말했다.
비전 인코더에 대해서는 '시신경'에 가까운 모듈이라는 설명을 덧붙였다. 이 관계자는 "비전 인코더는 시각 정보를 모델이 이해할 수 있는 신호로 변환하는 역할을 하며 네이버는 VUClip 등 독자적인 비전 기술력을 충분히 보유하고 있다"며 "다만 이번 모델에서는 글로벌 기술 생태계와의 호환성과 전체 시스템의 효율적 최적화를 고려해 검증된 외부 인코더를 전략적으로 채택했다"고 밝혔다. 이어 "기술적 자립도가 부족해서가 아니라 이미 표준화된 고성능 모듈을 활용해 전체 모델의 완성도와 안정성을 높이기 위한 엔지니어링 판단"이라고 설명했다.
오픈소스 정책 변경 우려에 대해서도 네이버는 영향이 제한적이라는 입장이다. 네이버클라우드 관계자는 "오픈소스 라이선스는 한번 배포되면 최초 배포된 라이선스가 적용되고 소급되지 않는다"며 "규정이 바뀌더라도 영향을 받지 않으며 만에 하나 조건이 변경되더라도 내부 기술로 대체할 수 있다"고 말했다.
하지만 업계에서는 이번 사안의 본질이 '인코더 사용'이 아니라 해당 인코더의 '가중치'에 있다는 지적이 나온다. 가중치(weight)는 인공지능이 학습 과정에서 만들어낸 판단 기준이다. AI는 방대한 데이터를 보며 어떤 정보에 더 비중을 둘지를 숫자로 조정하는데 이때 축적된 숫자들이 가중치로 남는다. 쉽게 말해 가중치는 AI가 학습을 통해 무엇을 중요하게 판단해야 하는지를 정리해 둔 결과물이다.
업계 한 관계자는 "비전 인코더 구조를 오픈소스로 활용하는 것까지는 업계에서도 충분히 가능한 선택"이라며 "문제는 그 인코더가 이미 외부 데이터로 학습한 가중치까지 그대로 사용했느냐 여부"라고 말했다. 그는 "소버린 AI의 기본 원칙은 해외 오픈소스 모델을 참조할 수는 있어도 모델에 들어가는 가중치는 100% 자체 학습으로 만들어야 한다는 것"이라며 "외부 모델이 어떤 이미지 데이터를 활용했는지 알 수 없는 상태에서 그 학습 결과물을 가져온다면 '가장 한국적인 AI'를 만들겠다는 취지와 충돌할 수밖에 없다"고 했다.
이 관계자는 '프롬 스크래치'의 마지노선을 가중치의 출발점으로 봐야 한다고 강조했다. 프롬 스크래치는 가중치를 제로베이스 또는 랜덤 상태에서 시작해 자사 데이터로 처음부터 학습하는 것을 의미한다. 인코더 구조 자체보다 인코더에 적용된 학습 가중치가 외부에서 유래했는지가 핵심 판단 기준이라는 설명이다. 그는 "민간 서비스라면 비용과 효율을 고려한 선택일 수 있지만, 지금은 효율성을 시험하는 단계가 아니라 독자 파운데이션 모델을 구축하는 단계"라며 "이 때문에 가중치 문제는 논란이 될 수밖에 없다"고 말했다.
즉 업계가 지적하는 핵심은 인코더 자체가 아니라 인코더에 포함된 학습 가중치를 그대로 사용했는지 여부다. 중국 개발자들이 학습시킨 비전 데이터의 학습 결과물(가중치)를 버리지 못하고 그대로 사용했다면 이는 처음부터 새로 개발한 '소버린 AI'라고 볼 수 없다는 것이다.
특히 논란이 되고 있는 업스테이지와 SK텔레콤과는 달리 네이버는 가중치면에서 아예 중국 모델을 차용했기 때문에 탈락사유가 발생했다는 지적이다. 앞서 정부는 사업 공고 당시 독자 AI 파운데이션을 두고 '모델의 설계부터 사전학습 과정 등을 수행한 국산 모델'이라고 명시한 바 있다. 네이버는 외부 인코더를 전략적으로 채택했다는 입장이지만 AI업계에서는 프롬 스크래치 원칙을 훼손했다는 평가가 많다.
반면 SK텔레콤의 A.X K1의 딥시크와 유사하다고 언급한 부분은 '인퍼런스 코드'로, 공개된 모델을 실행할 때 편의를 위해 지원하는 코드로 프롬 스크래치에서 독자성을 이야기하는 학습 코드와 구별돼 훼손 요소로 보고 있지 않다. 업스테이지도 중국 지푸AI의 'GLM-4.5-에어' 모델을 베꼈다는 의혹을 받았지만 인퍼런스 코드 스타일을 참조한 것일 뿐이며 오픈소스 호환성을 위한 표준적 방식이라는 분석이다.
이 같은 지적에 대해 네이버클라우드 측은 "인코더 가중치에 대해서는 드릴 말씀이 없다"며 선을 그었다. 인코더 채택의 기술적 판단과 달리 가중치 문제에 대해서는 명확한 설명을 내놓지 않은 셈이다.
업계에서는 이 지점이 이번 논란을 키우는 핵심 요인이라고 보고 있다. 네이버 사례처럼 인코더 채택 자체보다 가중치가 외부에서 학습된 결과물로 인식되는 순간 소버린 AI가 내세운 '가장 한국적인 AI'라는 명분은 흔들릴 수밖에 없다는 지적이다. 정부 역시 AI 모델 개발에서 프롬 스크래치의 기준을 규정하지 않아 이번 논란이 커졌다는 평가다. 하정우 AI미래기획수석과 배경훈 부총리 겸 과학기술정보통신부 장관이 페이스북을 통해 의견을 내놨지만 문제 해결이 아닌 원론적인 발언에 지나지 않았다는 여론이다.
또 다른 업계 관계자는 "구조를 참조하는 것과 학습 결과물을 가져오는 것은 전혀 다른 차원의 문제"라며 "가중치에 대한 명확한 기준 없이 '독자 AI'를 말하기는 어렵다"고 말했다. 그는 "기술 주권을 위한 '소버린 AI'를 만들겠다면 최소한 판단 기준과 학습 결과만큼은 스스로 만들어야 한다는 원칙부터 분명해져야 한다"고 덧붙였다.
ⓒ새로운 눈으로 시장을 바라봅니다. 딜사이트 무단전재 배포금지
Home





