Dec 26, 2025

HyperCLOVA X OMNI : 국가대표 AI, 옴니모델을 향한 여정

Image for HyperCLOVA X OMNI : 국가대표 AI, 옴니모델을 향한 여정

HyperCLOVA X SEED 32B Think : Hugging face 바로 가기

HyperCLOVA X SEED 8B Omni : Hugging face 바로 가기


소버린 AI, 각 국가 또는 지역의 문화, 역사, 가치관을 가장 잘 이해하는 AI를 독자적으로 개발하고 운영하는 것을 의미합니다. AI가 기존의 산업 구조와 우리의 생활을 빠르게 혁신하고 있는 가운데, 전세계 각국은 AI 주도권 확보를 위해 치열하게 노력하고 있습니다. 대한민국 역시 ‘독자 AI 파운데이션 모델 프로젝트’를 통해 우리만의 자체적인 AI를 개발하기 위해 노력하고 있는데요. 


팀네이버는 이 프로젝트의 정예팀으로서 국가대표 AI를 향한 여정을 함께 하고 있습니다. 오랜 시간 소버린 AI의 중요성을 강조하며 국내 소버린 AI 생태계를 구축에 힘써온 팀네이버의 AI 개발 방향성과 철학, 그리고 두 개의 새로운 모델을 소개합니다.


K-AI, 모두를 위한 AI

팀네이버가 생각하는 K-AI의 방향성은 명확합니다. 국민 모두를 위한 AI 생태계를 구성하는 것입니다. 누구나 쉽게 접근할 수 있고 기존에는 AI의 혜택을 받지 못하던 계층에도 먼저 다가가며, 나아가 국가 산업 경쟁력을 강화하는 AI를 만드는 것을 목표로 하고 있습니다. 


‘모두를 위한 K-AI’가 되려면 국민들의 실제 생활 속 다양한 문제를 해결해줄 수 있어야 합니다. 단순히 높은 지능으로 그럴싸한 답변을 생성해내는 것이 아니라, 우리의 문화와 우리가 살아가는 세상을 진정으로 이해해야 합니다. 이를 위해 팀네이버는 우리 고유의 언어, 문화, 사회적 맥락을 깊이 이해할 수 있도록 한국 특화 데이터를 모델 학습에 활용하고 있습니다.


이와 더불어 물리 세계에 결합되어 실질적인 기능을 수행할 수 있어야 합니다. AI 기술이 다양한 산업군에 적용되면서 자연스럽게 텍스트를 넘어 이미지와 오디오와 같은 다양한 모달리티를 함께 이해하고 생성하는 방향으로 요구가 확장되고 있습니다. 우리의 실생활 속 소통이 문자로만 이루어지지 않고 말소리와 시각적 맥락을 포함하듯, AI도 하나의 맥락 안에서 다양한 모달리티를 다룰 수 있어야 앞으로 더 많은 산업 분야와 실생활에 적용될 수 있습니다. 


이러한 모달리티의 확장은 텍스트 기반의 정보에 지나치게 의존하는 기존 방식을 탈피하여 범용 인공지능에 한 발 더 다가갈 수 있게 합니다. 기존의 대형 언어 모델은 텍스트를 통해 인류가 축적한 방대한 지식을 이해하고 세상을 모델링하였습니다. 이를 바탕으로 이미 다양한 분야에서 놀라운 수준의 성과를 보여주고 있지만, 모델 성능을 개선하기 위한 고퀄리티의 텍스트 데이터 양은 점점 한계를 마주하고 있습니다. 또한 텍스트 데이터는 현실 세계를 이해하는 데에 필수적인 시각 정보와 청각 정보를 담아내지 못합니다. 결국, 다양한 모달리티의 데이터로 학습해야 실제 현실세계를 더 깊이 이해할 수 있게 되는 것이죠.


옴니모달(Omnimodal)이란

그래서 팀네이버는 ‘옴니모달’에 주목했습니다. 옴니모달 AI란 하나의 모델이 텍스트·이미지·오디오와 같은 다양한 모달리티를 동시에 이해하고 생성할 수 있는 형태를 의미합니다. 


기존의 비전-언어 모델(VLM)은 이미지를 이해하는 능력은 있었지만, 모든 출력을 텍스트로 내놓는 형태였습니다. 즉, 시각 정보를 처리하더라도 ‘텍스트로 풀어 설명해주는 것’에 지나지 않았고, 이미지를 직접 생성하거나 음성으로 대답하는 등 모달리티를 넘나드는 소통은 어려웠던 것이죠.


팀네이버는 이 한계를 넘어, 사용자가 텍스트·이미지·음성 중 어떤 방식으로 질문하든지 모델이 알맞게 텍스트·이미지·음성으로 답할 수 있는 옴니모달 모델을 향해 나아가고 있습니다. 기존의 접근처럼 모달리티별 모델을 따로 만들고 연결하는 방식이 아니라, 다양한 모달리티별 감각을 탑재한 단일 모델로 처리하는 것입니다. 이런 구조는 실제 환경처럼 복잡한 상황이나 고난도 추론에서 훨씬 안정적이고 자연스러운 결과를 제공합니다.


효율적인 개발 및 사용

팀네이버는 좋은 성능과 더불어 높은 효율성을 지향합니다. AI의 사용에 있어서, 해결하려는 문제의 난이도와 조건에 따라 요구되는 모델의 크기도 달라집니다. 발생하는 비용은 모델의 크기에 비례하죠. 아무리 모델 성능이 좋더라도 이를 운영하는 데 드는 비용이 너무 크다면, 실제로 사용하기 어려운 모델이 됩니다. 따라서 문제의 난이도와 상황에 맞는 모델을 사용할 수 있도록 작은 모델을 포함한 다양한 사이즈의 모델이 필요합니다.


개발 효율성의 관점에서도 작은 모델을 먼저 개발하는 것이 유리합니다. 작은 모델을 먼저 개발하고 이를 비슷한 크기의 모델들과 비교하면서 모델 구조나 학습 데이터 등 개발 과정에 필요한 다양한 방법들에 대한 실험적 검증이 가능해집니다. 이와 같이 동급 모델 대비 경쟁력을 검증하면서 크기를 확장함으로써, 비용 대비 성능을 안정적으로 최적화해 나가고 있습니다. 즉, 모델의 크기를 우선적으로 키워 단순히 성능을 높이는 것을 지양하고 개발 효율을 극대화하여 더 큰 모델로 확장할 때도 합리적인 비용과 구조를 유지하고자 합니다.


보고 듣고 말하는 AI: HyperCLOVA X SEED 32B Think & 8B Omni

팀네이버가 이번에 공개한 신규 모델은 두 가지 트랙으로 구성되어 있습니다. 하나는 기존의 텍스트·이미지 기반 비전-언어 모델(VLM)에 음성을 덧붙여 옴니모달 경험을 빠르게 구현한 ‘HyperCLOVA X SEED 32B Think’이고, 다른 하나는 처음부터 텍스트·이미지·오디오를 하나의 모델 안에서 동시에 학습하도록 설계한 ‘HyperCLOVA X SEED 8B Omni’입니다. 


두 모델은 서로 경쟁하는 관계가 아닙니다. HyperCLOVA X SEED 32B Think는 실생활에서 옴니모델을 체험해볼 수 있게 해주며, 본격적인 옴니모델로의 전환을 잇는 징검다리 역할을 합니다. 반면, HyperCLOVA X SEED 8B Omni는 국내 최초의 진정한 옴니모델로서, 향후 더 큰 규모로 확장해 나가기 위한 장기 로드맵의 출발점입니다.


HyperCLOVA X SEED 32B Think

HyperCLOVA X SEED 32B Think는 기존의 텍스트·이미지 멀티모달 모델을 중심으로 음성 인식 및 합성 모듈을 앞뒤에 붙인 구조입니다. 다시 말해, 기존 VLM(Vision Language Model)의 앞에는 사용자의 음성을 텍스트로 바꿔주는 모듈이, VLM 뒤에는 모델의 텍스트 답변을 다시 음성으로 읽어주는 모듈이 연결되어 있는 것이죠.


이 모델은 텍스트와 이미지를 이해하고 깊이 있는 추론을 수행하는 기존 VLM의 능력을 그대로 유지하면서, 음성으로 대화하는 상호작용까지 가능합니다. 사용자가 사진을 보여주며 음성으로 질문하면, 모델은 사진과 질문을 함께 이해한 뒤 텍스트로 답을 생성하고 이를 음성으로 읽어주는 방식입니다.


이 구조는 멀티모달 모델에 오디오 모듈을 붙여서 음성 기능을 손쉽게 지원하는 장점이 있는 대신, 출력에 대한 제약 및 지연이라는 단점이 존재합니다.


HyperCLOVA X SEED 8B Omni

HyperCLOVA X SEED 8B Omni는 출발점부터 다른 접근 방식을 택했습니다. 텍스트·이미지·오디오를 각각 따로 처리하는 모델을 이어 붙이는 대신, 처음부터 하나의 통합 모델이 다양한 모달리티를 동시에 학습하도록 설계한 것이죠.


옴니모델 안에서는 단어·장면·소리가 하나의 단일 의미 공간으로 정렬됩니다. 같은 개념이 텍스트로 표현되든, 이미지로 그려지든, 소리로 입력되든 모델은 이를 모두 같은 의미로 이해하기 때문에, 사물 간 관계나 사람의 의도, 상황의 맥락을 더 일관되게 파악할 수 있습니다. 그 결과, 사용자가 글·사진·음성 중 어떤 방식으로 질문하더라도, 비슷한 수준의 이해와 답변 품질을 기대할 수 있습니다.


또한 간결하고 통합적인 아키텍처를 기반으로 하고 있어, 더 많은 자원을 투입할수록 모델의 크기와 능력을 깔끔하게 확장할 수 있다는 점도 큰 장점입니다. 더 좋은 조건이 주어지면 동일한 구조를 유지한 채 더 큰 옴니모델로 확장할 수 있는 토대를 이미 마련해 둔 것입니다.



숫자로 살펴보는 옴니모델

조금 더 객관적으로 살펴보겠습니다. HyperCLOVA X SEED 32B Think와 HyperCLOVA X SEED 8B Omni는 다양한 멀티모달 벤치마크에서 어떤 강점을 보여주고 있을까요?


HyperCLOVA X SEED 32B Think

HyperCLOVA X SEED 32B Think 모델은 기존 HyperCLOVA X SEED Think 모델의 우수한 추론 능력에 더하여, 시각 이해 능력과 에이전트 능력이 강화되었습니다. 


이 모델의 강화된 능력을 다각도에서 검증하기 위해서 텍스트 기반의 일반 지식(General Knowledge), 시각 이해 능력(Vision understanding), 그리고 에이전트 수행 능력(Agentic Task)을 평가했습니다. 비교군으로는 텍스트 기반 모델인 국내 타사 A 모델과 추론 능력 및 시각 능력을 모두 가지고 있는 글로벌 모델인 Qwen3-VL-32B-Think , InternVL3_5_35B Thinking 모델을 선정하였습니다. 


HyperCLOVA X SEED 32B Think 모델은 텍스트 중심의 타사 모델 대비 한국 문화 및 언어에 대한 일반 지식 항목에서 약 10%p 높은 점수를 기록했고, 시각 이해 항목에서도 시각 추론에 특화된 글로벌 모델들보다 높은 성능을 보여주었습니다. 또한 실제로 도구를 사용하여 문제를 해결하는 에이전트 수행 능력 항목에서도 비교 모델 대비 15%p 이상의 격차를 보이며 압도적인 우위를 보였습니다.


HyperCLOVA X SEED 8B Omni

그렇다면 국내 최초 옴니모델인 HyperCLOVA X SEED Omni 8B의 성능은 어떨까요? 글로벌 벤치마크를 통해 객관적으로 확인해보겠습니다.


HyperCLOVA X SEED 8B Omni의 진정한 옴니 모델로서의 역량을 검증하기 위해 대표적인 4개의 글로벌 멀티모달 LLM을 비교군으로 선정했습니다. 그리고  Vision-to-Text부터 Text-to-Audio 그리고 Text-to-Vision에 이르는 다양한 시나리오로 모델을 검증하기 위해 13개의 대표적인 글로벌 멀티모달 벤치마크를 선정하여 평가해보았습니다. 


다른 글로벌 멀티모달 LLM들은 Audio-to-Audio 같은 일부 입출력은 지원을 못한 반면, HyperCLOVA X SEED 8B Omni는 어떠한 입출력이든 고르게 지원하고 있음을 확인할 수 있었습니다. 심지어 Text-to-Vision나 Vision-to-Text과 같이 특정 입출력 조합에만 강점을 보이는 모델에 뒤처지지 않고, 모든 모달리티 조합에서 고르게 높은 점수를 기록하며 균형 잡힌 성능을 입증했습니다. 이는 HyperCLOVA X SEED 8B Omni가 사용자가 글·사진·음성 중 어떠한 형태로 질문하더라도 일관되게 높은 수준의 이해와 답변을 제공해 줄 수 있음을 보여줍니다. 


AI는 실제 세상의 다양한 문제를 해결할 수 있을까?

앞서 언급했듯, 팀네이버는 AI가 더 넓은 범위로 기능을 확장하여 다양한 문제를 해결하는 ‘실용성’에 집중하고 있습니다. 이제 벤치마크 숫자를 넘어, 더 다양한 유형의 문제를 해결할 수 있는지 확인해보도록 하겠습니다.


HyperCLOVA X SEED 32B Think

이제 AI는 학생들처럼 직접 시험을 볼 수도 있습니다. 문제 속 텍스트뿐만 아니라 그림, 오디오까지 인식하여 문제를 풀 수 있기 때문이죠. HyperCLOVA X SEED Think 32B는 과연 2026년 수능에서 몇 점을 받았을까요?


국·영·수뿐만 아니라 필수 과목인 한국사까지, 대부분의 과목에서 1등급을 받았습니다. 특히 영어와 한국사에서는 만점을 기록하며 우수한 문제 해결 능력을 입증했습니다. 문제를 일일이 타이핑해서 보여줄 필요 없이 사진만 찍어올리면 금세 논리적인 풀이 과정과 정답을 도출하는 HyperCLOVA X SEED 32B Think의 추론 능력과 멀티모달 역량을 동시에 보여주는 사례입니다. 


HyperCLOVA X SEED 8B Omni

옴니모델은 어떤 기능을 수행할 수 있을까요? HyperCLOVA X SEED 8B Omni를 실제 AI 에이전트에 적용하여 살펴보겠습니다.


1) 상담 에이전트

‘마음케어’는 따뜻한 대화를 통해 위로와 조언을 건네는 아바타 음성 대화 에이전트입니다. 편하게 말을 건네면 실제 상담사와 이야기를 나누듯 몰입감 있는 대화를 경험할 수 있습니다.


2) 음성 다국어 및 사투리 변환

‘보이스 스타일러’는 사용자의 음성을 지역별 사투리나 외국어로 변환해주는 에이전트입니다. 내용을 순식간에 변환 또는 통역하는 동시에 사용자의 목소리까지 입혀 자연스러운 결과물을 얻을 수 있죠.


3) 이미지 스타일 변환

‘스타일 스튜디오’는 주어진 이미지를 다양한 종류의 다른 화풍으로 바꿔주는 이미지 에이전트입니다. 동양화, 카툰 등 여러 가지 재미있는 스타일로 변환해볼 수 있습니다.


맺으며

신규 공개된 두 개의 모델은 아직 ‘완성형’이라기보다, 앞으로 팀네이버 에이전틱 AI 시스템의 기반으로 성장해 갈 옴니모델의 프리뷰에 가깝습니다. 그럼에도 불구하고, HyperCLOVA X SEED Think 32B와 8B Omni는 텍스트 기반 벤치마크에서 입증된 고난도 추론·지식 이해 능력에 더해, 이미지와 오디오를 안정적으로 다루는 옴니모달 성능까지 확보하며, 언어·시각·청각 전 영역에 걸쳐 균형 잡힌 지능을 보여줍니다.


단순히 여러 모달을 ‘지원한다’는 수준을 넘어, 복잡한 구조의 이미지와 시간에 따라 변하는 음성을 하나의 의미 공간에서 해석하고 언어로 재구성할 수 있다는 점에서, 보다 현실에 가까운 다양한 상황에서의 문제 해결과 맥락 이해가 가능한 모델임을 증명했습니다.


무엇보다 HyperCLOVA X SEED Omni 8B의 의의는, 양질의 학습 자원이 확보될수록 현재의 설계를 유지한 채 더 큰 대규모 옴니모델로 자연스럽게 확장할 수 있는 토대를 이미 마련했다는 데 있습니다. 


텍스트를 넘어 모든 감각을 자연스럽게 이해하고 생성하는 AI, 팀네이버가 지향하는 차세대 옴니모달 모델의 방향성은 이미 정해져 있습니다. 이제 남은 일은 이 잠재력을 더 큰 규모로 한 단계씩 실현해 나가는 것입니다.


HyperCLOVA X SEED 32B Think : Hugging face 바로 가기

HyperCLOVA X SEED 8B Omni : Hugging face 바로 가기