AI에 대한 우리의 상식을 뒤엎다
우리가 흔히 떠올리는 AI는 질문을 던지면 답을 내놓는 챗GPT 같은 텍스트 기반 모델입니다. 그런데 생각해 보면, 인간은 텍스트만으로 세상을 배우지 않습니다. 우리는 태어나는 순간부터 보고, 듣고, 만지고, 느낍니다. 갓난아이는 엄마의 목소리를 듣고, 장난감을 만지고, 주변의 색과 소리를 동시에 느끼며 세상을 이해하죠.
AI도 이제 같은 길을 걷고 있습니다. 옴니모달 AI는 텍스트라는 한계를 넘어서 이미지와 소리, 영상, 심지어 물리적 환경까지 동시에 학습합니다. 마치 인간이 여러 감각을 동시에 활용해 세계를 배우듯, AI도 처음부터 여러 감각을 함께 배우고 상호작용 하는 지능으로 진화하고 있는 것이죠.
멀티모달을 넘어 옴니모달로
AI 발전 과정을 단계별로 정리하면 다음과 같습니다.
1단계: 텍스트 숙련기(LLM)
- 대규모 텍스트를 학습해 문장을 구성하는 규칙을 압축하고, 요약ㆍ번역ㆍ질의응답 같은 텍스트 기반 과제를 능숙하게 수행합니다.
- 모델이 다루는 기본 단위는 ‘단어’라기보다 기호 조각(토큰)입니다. 다음에 올 조각을 예측하는 훈련을 반복하며 언어적 상식과 문맥 감각을 키웁니다.
- 이러한 관점은 곧 “시각과 음성도 동일한 단위로 바꿔 학습시킬 수 있지 않을까?”라는 확장 아이디어로 이어집니다.
2단계: 다감각 접목기(멀티모달)
- 텍스트 모델에 이미지와 음성 채널을 덧붙여 활용 범위를 넓힌 단계입니다. 설명을 입력해 그림을 만들거나, 사진을 보고 설명을 생성하는 작업이 가능해집니다.
- 다만 구조가 사후 결합(Post-hoc fusion)에 가깝기 때문에 모듈 간 표현 축이 어긋나 위치ㆍ수량ㆍ관계 추론에서 불안정함(환각)이 드러나곤 합니다.
- 쉽게 말해, 글로 세계를 익힌 뒤 그림과 소리를 나중에 끼워 넣은 형태입니다.
3단계: 전 영역 동시 학습기(옴니모달)
- 출발부터 텍스트와 이미지, 오디오와 영상을 함께 학습하여 다양한 감각 신호를 하나의 의미 좌표계로 정렬합니다.
- 결과적으로 ‘사과’라는 표기, 사과 사진, 한입 베어 무는 소리, 그 장면의 의도까지 자연스럽게 연결되어 관계와 맥락 이해가 깊어집니다.
- 핵심 차이는 사후 결합인지 동시 학습인지에 달렸습니다. 전자는 채널 간 불일치를 관리해야 하지만, 후자는 애초에 같은 기준에서 배우므로 일관성ㆍ일반화ㆍ강건성이 향상됩니다.
- 사용자 경험 측면에선 입력 방식이 글이든 사진이든 음성이든 가장 자연스러운 표현으로 지시해도 모델이 의도를 정확히 파악해 안정적으로 응답합니다.
옴니모달리티, 멀티모달과 무엇이 다른가?
옴니모달과 멀티모달의 핵심적인 차이는 ‘나중에 배울 것‘인지 ‘처음부터 함께 배울 것‘인지 입니다.
멀티모달 모델은 대개 이미 학습된 언어 모델 위에 시각과 음성 모듈을 사후 결합해 만듭니다. 이 접근은 빠르게 기능을 늘릴 수 있지만, 표현 축이 어긋나거나 연결 고리가 느슨해져 공간ㆍ위치ㆍ관계 판단에서 엇박자가 나기 쉽습니다. 사람이 보면 분명한 사물 을 틀리게 인식하거나, 장면 내 요소 배치를 잘못 짚는 맥락 왜곡(Hallucination)이 대표적이죠.
옴니모달 모델은 반대로 출발부터 텍스트와 이미지, 음성 신호를 하나의 모델 안에서 공동 학습합니다. 덕분에 ‘단어 – 장면 – 소리’가 서로 단단히 연결되고, 데이터 사이의 미묘한 관계까지 자연스럽게 포착하죠. 결과는 분명합니다. 일관된 관점으로 세계를 이해하므로 환각이 줄어들고, 지시를 일부만 해도 (“이 그림의 오른쪽 물체만…”) 정확성이 향상됩니다. 실제 환경에서 믿고 쓸 수 있는 통합 지능에 가까워지죠.
왜 모든 감각을 함께 배워야 할까?
사람은 한 장면을 이해할 때 글자만 보지 않습니다. 머릿속의 이미지, 들리는 소리, 공기의 느낌까지 함께 엮어 하나의 인상을 만들죠. 어린 시절 읽은 판타지 소설의 장면을 영화로 보았을 때 ‘내가 상상한 풍경과 너무 다르다’라며 낯설어하는 이유도 여기에 있습니다.
텍스트만으로 먼저 세계를 그려 둔 뒤 나중에 시청각 정보를 접하면, 두 세계가 충돌하기 쉽습니다. AI도 마찬가지입니다. 학습 초기부터 시각과 청각 등 여러 단서를 함께 익히면 개념이 한쪽으로 굳어지는 것을 피하고, 데이터 사이의 미묘한 맥락을 더 깊게 포착할 수 있습니다.
- 오해를 줄이는 학습 구조
앞서 언급했듯, 기존의 멀티모달 AI는 언어 모델에 다른 감각 모듈을 나중에 덧붙이는 경향이 있어, 위치와 관계 같은 과제에서 환각 현상이 나타날 수 있습니다. 반면 옴니모달 AI는 처음부터 다양한 신호를 하나의 공통된 의미 공간에서 함께 학습해 세계를 일관되게 이해합니다.
- 복합 현상에 강한 지능
제조 현장을 예로 들면, 설비의 미세한 소음 변화(오디오)와 부품의 시각적 이상(비전)을 동시에 읽어야 예지 보전을 제대로 할 수 있습니다. 로보틱스 역시 지시 이해 → 계획 → 실행 → 자기 검증이 가능해야 ‘지능형 동료’로 기능합니다. 단순히 움직이기만 하는 시스템은 고도화된 자동화 장비에 가깝고, 말을 이해하고 상황을 보며 계획을 바꾸는 로봇이어야 진정한 AI 에이전트가 되죠. 옴니모달 모델은 이 요구를 모델 구조 차원에서 충족합니다.
- 모두를 위한 인터페이스
누구나 복잡한 문서를 다루진 않습니다. 말하기, 사진 보여주기, 화면을 가리키기처럼 다양한 표현 방식을 AI가 그대로 이해할 수 있을 때, 사용성의 문턱이 낮아지고 AI는 일상적인 인프라가 됩니다. 이를 위한 핵심이 Any-to-Any 능력으로, 어떤 입력이든 받아 텍스트, 이미지, 음성 등 원하는 형태로 출력하는 능력입니다. 옴니모달 AI는 이러한 유연성을 바탕으로 결과물을 함께 보며, 필요시 즉시 수정하는 실시간 협업을 가능하게 합니다.
요약하자면, 동시 학습은 잘못된 개념화를 줄여 정확성을 높이고, 복잡한 신호를 한 덩어리로 다뤄 강건성을 키우며, 더 많은 사람이 자연스러운 방식으로 AI와 협업하도록 만들어 접근성을 넓힙니다. 옴니모달리티는 자연스러운 지시와 상호작용을 중심축으로 이 세 가지 가치를 아키텍처 차원에서 구현하는 길이죠.
지시와 상호작용: AI가 파트너가 되는 순간
과거의 AI는 단순히 사용자 입력에 반응하는 도구였습니다. 하지만 지금의 AI는 지시를 이해하고, 상호작용 하며, 목표를 향해 유연하게 행동합니다.
- 지시 이해의 정밀화
부분 지시를 정확히 해석하기 때문에 연속적인 수정과 협업이 가능하며, “방금 결과에서 3번째 표만 다시 계산해줘” 같은 참조 지시에도 안정적으로 응답합니다. - 연속 작업의 맥락 유지
중간 산출물을 보여주고 피드백을 반영하며, 작업 경로를 실시간으로 조정합니다. - 상황 대응성
AI는 단순히 대화를 이어가는 게 아니라, 사용자의 발언을 분석하고, 목표를 스스로 계획하며, 상황에 따라 행동을 바꿀 수 있습니다. 예를 들어, 어르신에게 안부 전화를 하는 케어콜 AI는 단순히 “잘 지내시죠?”로 끝나지 않습니다. 답변이 이상하면 즉시 다음 질문을 바꾸거나, 위험 신호를 감지하면 관련 기관에 알립니다.
즉, 이제 AI는 ‘단조롭게 움직이는 로봇’이 아니라, 대화하고 협력하며 문제를 함께 해결하는 동료로 진화했습니다.
AI가 ‘도구’에서 ‘동료’로 바뀌는 순간
옴니모달 모델은 사람이 오감을 엮어 장면을 이해하듯, 텍스트 토큰, 이미지 픽셀, 오디오 파형처럼 서로 다른 신호를 하나의 공통 표현 공간에 정렬합니다. 앞서 들었던 예를 이용하면 ‘사과’라는 표기, 사과 사진, 한입 베어 무는 소리 같은 단서가 서로 연결되어 일관된 세계 지도를 만듭니다. 이런 정렬이 탄탄할수록 모델은 새로운 상황에서도 관계와 맥락을 안정적으로 재구성합니다.
왜 지금 ‘에이전트’가 중요해졌나?
스케일링 법칙으로 지능이 고도화되면서 AI는 ‘관찰’과 ‘설명’을 넘어 이해 → 시뮬레이션 → 계획의 단계를 밟고 있습니다. 목표를 스스로 세우고 절차를 설계하고 수행하는 에이전트 능력이 빠르게 발전하고 있기 때문인데요. 이제 모델은 다음 단어를 예측하는 데 그치지 않고, 사용자의 복합 의도를 파악해 실제 행동까지 계획하고 실행하는 목표 지향적 상호작용을 수행합니다.
상호작용 역량이 왜 핵심일까?
현실은 계획대로만 흘러가지 않습니다. 사용자의 기분 변화, 작업 대상의 상태 변화, 예상 못 한 외부 변수로 계획은 수시로 흔들리죠. 진정한 지능은 미리 짜둔 절차를 그대로 따르는 로봇이 아니라, 실시간 상호작용으로 오류를 즉시 수정하고 경로를 재설계하는 시스템입니다. 옴니모달 AI는 대화를 이어가며 맥락을 갱신하고, 주변 변화를 관찰해 다음 행동을 조정하며, 필요하면 다른 에이전트와 협업해 더 나은 결과를 만듭니다.
요약하면, 옴니모달 AI는 여러 감각을 하나로 묶어 일관되게 세계를 이해하고, 그 이해를 바탕으로 목표를 계획하고 수행합니다. 이때 사용자와 끊기지 않는 상호작용이 문제 해결 능력을 결정짓습니다. AI가 도구를 넘어 함께 일하는 파트너가 되는 지점이 바로 여기입니다.
팀네이버, 다음 단계로
팀네이버는 비전 이해 → 오디오 이해 및 생성 → 비전 생성을 한 축으로 통합해, 입력이 텍스트, 이미지, 음성, 영상 등 무엇이든 출력을 문서, 표, 그림, 오디오, UI 조작 등 무엇으로든 내보내는 Any-to-Any 옴니모달 모델을 지향하고 있습니다. 이 방향을 택한 이유는 세 가지입니다.
- 지시 허들을 낮추기 위해서: 말하기, 보여주기, 가리키기 등 사람이 쓰는 방식 그대로 이해할 때 사용성 장벽이 크게 낮아집니다.
- 오해를 줄이기 위해서: 처음부터 시각과 청각을 함께 배워 글로만 배운 모델의 편향과 환각을 완화합니다.
- 함께 만드는 경험을 만들기 위해서: 실제 협업은 ‘중간 결과를 보고 고치기’의 연속입니다. 출력 형식(문서, 이미지, 음성, UI 요소)까지 직접 생성하고 수정할 수 있어야 합니다.
여기에 데이터 전략이 더해집니다. Any-to-Any를 현실로 만들려면 모델보다 먼저 고품질 데이터가 필요합니다. 특히 인간처럼 세상을 배우려면 문서나 이미지를 넘어 사용자 일인칭 시점(POV) 기록처럼 아직 디지털화가 덜 된 생활 맥락 데이터까지 확보하고 정제해야 합니다.
나라와 지역마다 문화, 언어, 환경이 다른 만큼 현지 데이터를 갖추는 것도 중요합니다. 동시에 개인 정보와 생체 정보, 위치 신호를 다루는 윤리ㆍ안전ㆍ거버넌스 체계를 설계하고, 해외 의존을 줄여 우리 환경에 맞는 모델을 스스로 설계하고 학습하며 배포할 수 있는 ‘소버린 AI’ 역량을 키우겠습니다. 결국 우리가 사는 공간의 삶과 데이터를 잘 만드는 것이, 세상을 가장 잘 이해하는 AI로 가는 지름길입니다.
이와 함께 실시간 처리를 핵심 역량으로 키우고 있습니다. 듣는 동안 추론하고, 부분 결과를 스트리밍으로 내보내는 파이프라인을 설계해 사람과 얘기하듯 스트리밍 음성 대화를 자연스러운 속도로 구현합니다. 한 가지 예가 PodcastLM입니다. 문서나 기사를 깊게 이해해 다중 진행자의 대화 스크립트를 만들고, 신경망 기반 음성 합성(TTS)과 결합해 완성된 팟캐스트까지 자동 제작하죠.
맺으며
팀네이버의 목표는 분명합니다. 실시간으로 이해하고, 근거로 설명하며, 책임 있게 실행하는 지능을 한국의 데이터와 기준으로 만들어 신뢰 가능한 AI 인프라로 자리매김하는 것. Any-to-Any 옴니모달, 현지 데이터와 거버넌스, 소버린 AI 역량을 축으로 삼아, 한국에서 시작해 글로벌 무대까지 다음 세대 사용자 경험과 개발자 생태계를 직접 설계하겠습니다.
더 알아보기: KBS N 시리즈 ‘AI토피아’ 제 2회
위에서 정리한 내용은 성낙호 네이버클라우드 Hyperscale AI 기술총괄이 출연한 KBS N 시리즈〈AI토피아〉 제2회 영상에서도 확인할 수 있습니다. 방송은 핵심 개념과 배경을 맥락화하고 최근 흐름을 함께 짚어, 본문에서 다룬 방향성을 더 명료하게 이해하는 데 도움이 됩니다.

