Aug 7, 2024

HyperCLOVA X, 한국어에 최적화된 최첨단 AI 모델

Image for HyperCLOVA X, 한국어에 최적화된 최첨단 AI 모델

HyperCLOVA X 소개
2023년 네이버는 기존의 하이퍼클로바 모델을 한층 고도화한 하이퍼클로바X를 출시했습니다. 하이퍼클로바X는 복잡한 질문도 거뜬히 답변할 수 있을뿐더러 한국어 능력도 강화되었습니다. 최근 하이퍼클로바X를 여러 개의 다른 AI 모델과 비교 평가한 결과, 언어별 특성을 반영하도록 설계된 여러 평가 체계에서 두각을 나타내며 소버린 AI의 모범 사례로 인정받았습니다. 한국어에 대한 깊은 이해를 바탕으로 글쓰기와 추론, 번역 등 다양한 영역과 여러 평가 지표에서 뛰어난 성능을 보여주며 한국어에 최적화된 모델임을 입증했습니다.


한국어 특화 대규모 언어 모델의 필요성
한국의 음악과 영화, 음식을 필두로 세계 곳곳에 한류가 불면서 한국어의 인기도 날로 높아지고 있지만, 한국어에 특화된 대규모 언어 모델(LLM)은 많지 않습니다. LLM이란 사전에 학습한 방대한 데이터셋을 바탕으로 언어를 이해하고 생성하는 AI 모델입니다. 현재 내로라하는 AI 모델의 사전 학습 데이터는 대부분 영어로 이루어져 있으며, 영어권 국가와 특히 북미 문화에 치우쳐져 있습니다. 따라서 한국의 사회적 가치와 규범, 문화적 맥락, 지리적 상황, 고유의 언어 표현을 살릴 수 있는 모델이 필요합니다. 소버린 AI는 자국의 데이터와 인프라, 인력으로 AI 기술을 키우는 것을 목표로 하며, 데이터 주권을 지키기 위해서라도 독자적인 LLM을 개발해야 합니다.


돋보이는 한국어 성능
하이퍼클로바X는 한국어에 기반한 언어 모델로 사전 학습 데이터에서 한국어가 차지하는 비중을 대폭 늘렸습니다. 한국어 · 다국어 · 코딩 세 종류의 데이터를 고루 학습시킨 후 적절히 전처리하여 모델에 녹여 넣었으며, 문서를 처리하기 위해 텍스트를 글자나 단어, 구로 이루어진 토큰으로 전환하는 과정을 거칩니다. 하이퍼클로바X는 한국어 특화 토큰을 사용하기 때문에 해외 AI 모델보다 문장의 길이를 더 잘 압축할 수 있습니다. 앞뒤 문맥을 파악할 수 있는 범위가 넓어지고 추론하는 데 드는 비용도 절감할 수 있습니다. 따라서 동일한 문서라도 모델의 크기와 속도가 같다는 전제하에 더 빠르게, 더 나은 답변을 얻을 수 있습니다.


경쟁력 있는 다국어 능력
하이퍼클로바X는 한국어뿐 아니라 다국어 추론과 기계 번역 능력 또한 출중합니다. 앞선 LLM 평가에서는 사전 학습 데이터의 대부분 비중을 차지하는 한국어와 영어를 활용하여 상대적으로 데이터의 양이 적은 제3의 언어, 특히 아랍어, 힌디어, 태국어, 우르두어, 베트남어, 중국어 등 아시아 국가의 언어로 추론하는 능력에서 높은 점수를 받았습니다. 한국어와 영어 · 일본어 · 중국어 세 언어 간 기계 번역 능력도 뛰어나서 한국어로 작성된 문서를 영어로 번역할 때, 단순히 언어를 옮기는 것이 아니라 문서의 내용과 의도를 정확하게 전달합니다.


파운데이션 AI 모델
기존에는 원하는 작업에 따라 목적에 맞는 AI를 구현했다면, 이제는 범용 AI 모델을 먼저 구축한 후 그 위에 데이터를 결합하여 개별 사용자의 요구사항에 맞게 파인 튜닝하는 방식의 파운데이션 AI 모델이 대세입니다. 네이버 서비스인 CLOVA X와 Studio API를 통해 네이버의 파운데이션 AI 모델, 하이퍼클로바X를 활용해 볼 수 있습니다. CLOVA X는 네이버의 초대규모 AI인 하이퍼클로바X가 적용된 기업용 서비스로 업무 생산성을 향상할 수 있는 다양한 기능을 대화형 인터페이스로 제공합니다. Studio API는 하이퍼클로바X의 기능을 사용자가 바로 활용할 수 있는 서비스로 원하는 목적에 따라 하이퍼클로바X를 사용할 수 있습니다.


HyperCLOVA X의 미래
하이퍼클로바X는 멀티모달로 확장해서 제공할 예정입니다. 멀티모달은 텍스트뿐 아니라 이미지, 동영상, 음성 등의 직관적인 데이터를 동시에 이해하는 AI 모델입니다. 앞으로는 입력한 데이터의 형태와 상관없이 시각적인 정보도 이해하고 생성할 수 있도록 발전시킬 계획이며, 더욱 자연스러운 대화형 인터페이스로 사람들이 실제로 세상을 바라보고 상호작용을 하는 모습과 더 닮아 있을 것입니다. 머지않은 미래에는 마트에서 장을 보다가 식재료 사진을 보내고선 요리법을 물어본다거나 영화를 보면서 실시간 영상으로 대화하듯이 영화에 나오는 등장인물이나 배경을 설명해 달라고 할 수도 있겠습니다.


*추가 정보
하이퍼클로바X에 대한 더 자세한 내용은 테크니컬 리포트에서 확인하실 수 있습니다.
테크니컬 리포트 바로가기
CLOVA X 바로가기

CLOVA Studio API 바로가기