Apr 28, 2025

네이버클라우드의 AI 반도체 연구: LLM의 한계를 넘다

Image for 네이버클라우드의 AI 반도체 연구: LLM의 한계를 넘다

AI 반도체, 주식시장에서 핫이슈가 된 이유
요즘 주식 시장에서 뜨거운 키워드는 ‘AI 반도체’입니다. 그만큼 세상을 움직이는 기술 중에서 AI 반도체의 중요성이 높아졌습니다. 최근, 인간의 삶이 반도체의 발전과 함께 달라졌다고 해도 과언이 아닙니다. 싼값에 높은 컴퓨팅 성능을 제공하여 누구나 IT 서비스를 누릴 수 있도록 해주는 것이 반도체의 큰 의미입니다. 따라서 AI가 세상을 바꾸는 일에도 당연히 반도체가 필요합니다.
반도체가 인간에게 저비용의 AI 서비스를 누릴 수 있는 기반을 마련해주고 삶 속에서 마치 스마트폰을 사용하듯이 AI 서비스를 누릴 수 있으면 좋겠지만, 아직 현실과 이상 사이의 괴리가 존재합니다. AGI(Artificial General Intelligence)란 인간처럼 다양한 분야에서 학습하고 추론하며 문제를 해결할 수 있는 범용적인 인공지능을 의미합니다. 현재의 AI가 이미지 인식, 언어 처리 등 특정 작업에 특화된 ‘좁은 AI(Narrow AI)’라면, AGI는 인간 수준의 범용성과 유연성을 갖춘 지능을 목표로 합니다.
만약 AGI가 오늘 개발된다고 해도, 그 변화를 실제로 체감하기까지는 더 많은 시간이 필요할 것입니다. 하드웨어 비용과 같은 현실적 제약으로 인해 AGI가 대중화되기까지는 시간이 필요하기 때문입니다. 이번 포스팅에서는 좋아지는 AI 성능만큼이나 날로 늘어나는 LLM 추론 비용에 대해 알아보고, LLM의 한계를 뛰어넘기 위해서 왜 반도체 개발이 중요한지 파헤쳐 보겠습니다.


AI 반도체가 해결해야 할 과제: LLM의 구조적 한계
LLM 서비스 운영에 필요한 비용을 이해하려면 먼저 모델 구조와 연산 특성을 알아야 합니다. LLM은 입력된 문장을 바탕으로 다음 단어를 하나씩 예측해 가며 답변을 생성합니다. 이 과정은 크게 두 단계로 나뉩니다.

  • 프리필(Prefill): 입력된 문장을 이해하고 핵심 내용을 정리하는 단계
  • 디코드(Decode): 이해한 내용을 바탕으로 단어를 하나씩 생성하며 문장을 완성하는 과정

LLM은 단어를 바로 처리하지 않고, ‘토큰’이라는 작은 단위로 나누어 계산합니다. 예를 들어, ‘인공지능’이라는 용어는 하나의 토큰이 될 수도 있고, ‘인공’과 ‘지능’처럼 두 개의 토큰으로 분리될 수도 있습니다.



현존하는 대부분의 LLM은 2017년 구글이 발표한 Transformer 모델을 기반으로 합니다. 특히 OpenAI가 Transformer 기반 모델에서 발견한 Scaling Law(모델 크기, 데이터 규모, 컴퓨팅 자원과 성능 간의 관계)는 GPT-3를 비롯한 대형 언어 모델 개발의 이론적 토대가 되었고, 이후 등장한 대부분의 대형 언어 모델은 Transformer의 Decoder 구조를 중심으로 발전해 왔습니다. Transformer의 Decoder 구조는 이전에 생성된 토큰을 모두 참조하여 다음 토큰을 순차적으로 생성하는 방식으로 작동합니다. 이러한 연쇄적인 생성 방식으로 인해 LLM이 답변을 만들 때, 크게 두 가지의 성능 제한이 발생합니다.

  1. 계산 병목(Compute-bound): 프리필 과정에서 주로 발생합니다. 데이터 전송이 완료됐는데 계산할 것이 많아서 계산이 모두 끝날 때까지 기다려야 하는 상황입니다. 한꺼번에 많은 데이터를 처리해야 하므로, 계산 능력이 낮으면 처리 속도가 느려집니다.
  2. 메모리 병목(Memory-bound): 디코드 과정에서 주로 발생합니다. 계산은 이미 완료됐는데 데이터 전송이 끝나지 않아서 기다려야 하는 상황입니다. AI가 한 토큰씩 답을 만들 때, 이전 데이터를 계속 불러와야 하는데, 이때 데이터가 늦게 전달되면 전체 속도가 느려집니다.

두 병목 현상이 모두 존재하는 것이 LLM 추론의 특징이고, 추론 최적화를 위해서는 두 과정의 복잡한 상호 관계를 함께 고민해야 합니다. 특히 토큰을 순차적으로 생성하는 디코드 과정의 메모리 병목 현상이 LLM 서비스 비용 상승의 주요 원인으로, 네이버클라우드는 이 부분을 최적화하는 것에 중점을 두고 있습니다. 이러한 병목 현상들은 LLM 서비스의 확장성과 비용에 직접적인 영향을 미치게 됩니다. 특히 디코드 과정에서 발생하는 메모리 병목은 토큰 생성 비용의 주요 원인으로 작용합니다.


네이버클라우드는 세계에서 세 번째로 LLM을 학습시키고 계속해서 AI 서비스로 발전시키는 방법을 고민해 온 회사로서, 이러한 LLM 추론 비용의 문제를 해결하기 위한 다양한 연구와 개발을 진행하고 있습니다. 일찍부터 LLM의 운영 비용 구조를 분석하고, 효율적인 메모리 관리와 연산 최적화를 통해 비용을 절감하는 방안을 모색하고 있습니다.



네이버클라우드의 AI 반도체 기술 연구

반도체를 움직이는 핵심 동력, AI 소프트웨어
반도체의 연산 처리 장치와 메모리 성능은 해당 반도체로 구동할 수 있는 시스템의 최대 성능을 의미합니다. 그러나 시스템의 실제 성능은 해당 하드웨어 위에서 LLM 모델을 구동하는 서빙 인프라와 최적화된 AI 소프트웨어에 의해 결정됩니다. 네이버클라우드는 AI 소프트웨어를 수동적으로 활용하는 수준에 머무르지 않고, 하드웨어 성능을 극대화하기 위한 최적화 작업을 진행해 오고 있습니다. NVIDIA와 협력하여 LLM 학습 및 추론 솔루션 최적화를 진행하며 오픈소스 커뮤니티에도 꾸준히 기여하고 있습니다.
최근에는 범용적인 연산을 모두 지원하기보다 LLM 모델을 구동하는 데 필요한 특정 연산을 얼마나 효율적으로 처리할 수 있는지가 핵심 과제로 대두되고 있습니다. 네이버클라우드는 이러한 시장 변화를 민첩하게 포착하여 LLM 학습 및 추론에 특화된 AI 최적화 기술 연구와 소프트웨어 고도화에 박차를 가하고 있습니다.


네이버클라우드-인텔 공동연구소 설립

AI 소프트웨어는 단순한 실행 도구를 넘어, AI를 위한 반도체를 실제 서비스에 적용하는 핵심 요소로 자리 잡고 있습니다. AI 반도체 후발주자들은 기존 솔루션을 완전히 대체할 수준의 소프트웨어 완성도를 갖추지 못한 상황이며, 이에 따라 소프트웨어 생태계가 형성되지 못한 문제점이 있습니다.
네이버클라우드는 이런 문제점을 해결하기 위해 인텔과 협력하여 네이버-인텔 공동연구소를 설립하였습니다. 이 연구소를 통해 산업, 학계, 스타트업과의 협력을 촉진하며, 인텔 Gaudi 기반 AI 소프트웨어 생태계 확장에 기여하고 있습니다. 네이버의 기술 전문성을 기반으로 대학과 스타트업이 인텔 하드웨어를 활용해 실질적으로 최신 AI 기술을 구동할 수 있도록 다양한 프로젝트를 만들었습니다. 이를 통해 인텔의 AI 소프트웨어 생태계뿐만 아니라 국내 AI 연구개발 커뮤니티가 상호 성장할 수 있는 구조적 기반을 마련하고 있습니다.


종합적 접근을 통한 경량화 기술 연구
네이버클라우드는 단순한 AI 소프트웨어 최적화 수준을 넘어, 서비스 환경과 모델 구조에 대한 깊은 이해를 바탕으로 통합적 성능 최적화 전략에 집중하고 있습니다.
특히, 하드웨어 연산 특성에 대한 이해를 바탕으로 LLM 경량화 기술에 주목하고 있습니다. 경량화 기술은 모델의 크기와 연산량을 줄이면서도 성능 저하를 최소화하는 접근 방식으로, Quantization(양자화), Pruning(가지치기) 등의 기법을 포함합니다. 기존의 GPU 기반 추론 시스템은 대규모 연산 처리와 고속 메모리 환경을 제공하는 고성능 시스템이지만, 동시에 높은 하드웨어 비용과 큰 전력 소비라는 한계를 지니고 있습니다. 특히, 메모리 병목 문제를 해소하기 위해 HBM(High Bandwidth Memory)과 같은 고가의 메모리 기술이 요구되며, 이는 전체 시스템 비용을 증가시키는 요인이 됩니다.
이에 따라 네이버클라우드는 모델 자체를 경량화하는 기술을 통해 비용 효율을 높이는 연구에 집중하고 있습니다. 또한, LLM 서비스에 맞는 경량화 기술을 개발하기 위해 모델 성능과 처리 속도 간의 최적 균형점을 찾기 위한 연구를 진행하고 있습니다. 그 결과는 학술 논문으로도 발표되어 글로벌 AI 연구 커뮤니티에 기여하고 있습니다.


AI 반도체 IP 솔루션 개발
네이버클라우드는 경량화된 LLM을 효율적으로 실행할 수 있는 반도체 IP(Intellectual Property) 연구를 진행 중입니다. GPU 가속의 한계를 극복하기 위해 경량화 기술에 최적화된 IP 솔루션을 개발하는 것이 목표입니다.



LLM 경량화에 자주 활용되는 양자화(Quantization) 기법은, 입력값의 분포가 모델의 층마다 크게 달라 대부분 가중치만 압축하는 weight-only quantization 방식이 사용됩니다. 하지만 이 방식은 MatMul 연산 시 압축을 풀어야(dequantization) 하므로 이 과정에서 처리 지연이 발생합니다. 또 다른 경량화 기법인 가지치기는, 결과에 큰 영향을 미치지 않는 요소를 제거한 결과로 빈 매트릭스가 자주 발생하고, 이로 인해 GPU의 병렬 처리 효율이 저하되는 문제가 있습니다.
네이버클라우드는 LLM 모델 성능을 유지하면서도 경량화된 모델 구조의 연산을 효율적으로 가속하는 새로운 기술을 연구하고 있으며, 그 결과로 최적화된 커널과 반도체 아키텍처를 학술 논문에서 공개하였습니다. 이는 AI 반도체 분야에서 네이버클라우드가 보여주는 기술적 리더십의 사례입니다.



AI 반도체의 미래를 위한 네이버클라우드의 비전

저렴한 AI 컴퓨팅의 실현
네이버클라우드는 폭발적으로 증가하는 AI 서비스 수요에 대응하기 위해 얼마나 많은 LLM 토큰을 생산해 낼 수 있을지, 얼마나 많은 GPU가 필요할지, 그리고 이 GPU를 확보하기 위해 얼마나 많은 전력과 데이터센터 공간이 필요할지 지속적으로 고민하고 있습니다.
근 30년간 한국에서 가장 많은 서비스 트래픽을 처리하고 다양한 서비스를 운영했던 네이버는 고품질의 AI 서비스를 대중화시키는 데 있어 저렴한 서비스 비용 체계 구축이 중요한 도전이라고 인식하고 있습니다.


하드웨어 업체와의 협력 강화
네이버클라우드는 LLM 추론 비용 절감이라는 미션을 달성하기 위해 어떤 AI 반도체가 필요한지 지속적으로 연구하고 있습니다. 특히 경량화와 이에 최적화된 하드웨어가 앞으로 LLM 추론 비용을 한 단계 더 감소시킬 필수 기술이 될 것이라고 확신하고, 이를 실현하기 위해 다양한 하드웨어 회사들과 협력하고 있습니다.



AI 시대의 중심에 서는 네이버클라우드

AI 컴퓨팅 비용을 유의미하게 낮출 수 있다면, 더 좋은 서비스와 더 좋은 모델을 만드는 일도 가속화될 것이고, AI로 인해 나은 세상을 만드는 과정이 더 빨라질 것입니다. 네이버클라우드는 저렴한 AI 컴퓨팅을 위한 기술 개발에 지속적으로 투자하고 있으며, 이는 곧 더 많은 사람들이, 더 널리, 더 쉽게 AI 서비스를 활용할 수 있게 하는 길이 될 것입니다. AI 반도체 기술 연구를 통해 네이버클라우드는 미래 AI 시대의 중심에 서고자 합니다.