CLOVA X는 네이버의 초대규모 언어모델인 HyperCLOVA X 기술을 바탕으로 만들어진 대화형 AI 서비스입니다. 사용자는 CLOVA X에 다양한 주제를 자유롭게 질문하며 풍부한 탐색과 생산성 높은 대화를 이어갈 수 있습니다. 대화형 서비스답게 CLOVA X에 들어와서 가장 처음 보이는 화면은 어떤 질문이든지 입력할 수 있는 질문 창입니다.
2024년 4분기, CLOVA X에 가장 많이 물어본 질문은 어떤 주제였을까요?
가장 많이 질문한 주제를 분석해 보니 대규모 언어모델인 만큼 번역과 작문 역량을 활용하고자 하는 니즈가 가장 많았습니다. 이 외에도 교육과 취업 준비, 건강 관련 고민 상담 등 일상 속 다양한 상황에서 CLOVA X의 도움을 받고 있었습니다.
이러한 사용자의 주요 지표를 분기별로 검토하고 특이 사항이 발견되면 주목해야 할 이용 패턴을 심층적으로 탐구해 보았는데요, 연령별 사용자 분포를 보았을 때 대학 학기 중인 3~6월과 9~12월에 20대 사용자의 뚜렷한 증가 추세가 나타났습니다. 이러한 패턴을 더욱 파고들어 다른 연령층 대비 20대 그룹이 보이는 학기 중의 특징적 대화 패턴을 분석해 보았습니다.
• 대학 개강 시즌에 20대 사용자 비중 증가 (3~6월, 9~12월)
• 가장 자주 나오는 대화 토픽: 글쓰기, 학습, 프로그래밍, 일상대화
• 핵심 대화 키워드: #시험기간 #취준 #과제준비 #연애상담
20대는 글쓰기, 학습, 프로그래밍, 일상대화를 주제로 한 질문 빈도가 다른 연령층 대비 상대적으로 높았습니다. 글쓰기에서는 주로 자소서, 보고서 수정을 요청했고, 학습에서는 기출문제 분석이나 문제 풀이 등 시험 준비를 위해 많이 사용했습니다. 프로그래밍은 취업이나 자격증을 위해 코딩을 연습하면서 도움을 받는 경우가 많았어요. 한 가지 흥미로운 사실은 20대는 특히 AI에 일상적 고민을 터놓는 비율이 높고 정서적으로 친밀한 대화를 기대한다는 것입니다.
이런 대화 패턴을 분석해 보니, 20대 사용자에게 CLOVA X는 두 가지 특별한 의미가 있었습니다. 시험과 과제, 취업 준비를 효율적으로 돕는 든든한 러닝메이트이자, 연애나 친구 관계 등 일상적 고민을 함께 나누는 친구 같은 멘토였습니다. 다시 말해, CLOVA X는 20대가 마주하는 크고 작은 과제를 해결하는 과정에서 실질적인 도움을 주는 동시에, 새로운 도전을 위한 용기를 북돋아 주는 지원군이었던 셈입니다.
이처럼 사용자가 질문 창에 실어 보내는 질문과 무한한 대화에는 현재의 니즈와 생성형 AI에 대한 기대가 담겨있습니다.
질문의 주제와 의도를 읽을 수 있어야 사용자가 일상에서 필요를 느끼는 영역에 도움을 주는 모델과 서비스를 만들 수 있습니다. 이렇듯 대화형 AI 서비스가 일상에 제공할 수 있는 가치를 탐구하기 위해서 CLOVA X는 클러스터링 시스템인 CAST(CLOVA X Log Analysis and Semantic Tracking)를 활용합니다. CAST를 통해 대화 데이터를 주제별로 분류하고 사용자 니즈와 패턴을 분석하는데요, 이번 글에서는 CAST가 대화 데이터를 어떻게 분석하는지, 그리고 이를 통해 발견한 흥미로운 사용자 패턴을 소개해 드리겠습니다.
무한한 대화, 유한한 카테고리로 담아내기
CAST가 수많은 대화 데이터를 이해하기 쉽게 주제와 의도 단위로 분류하는 것은 쉽지 않은 도전이었습니다. 하지만 시간의 흐름과 CLOVA X 서비스의 성장에 따라 변화하는 대화 트렌드를 따라가기 위해 체계적이고 고정된 주제 단위의 클러스터링이 필요했습니다. 이를 해결하기 위해 CLOVA X에 들어오는 대화 내용을 약 40개의 주제(Topic)와 280가지의 세부 의도(Intent)로 체계화했습니다.
- 주제는 글쓰기, 여행, 건강 등과 같은 ‘상위 주제군’
- 세부 의도는 독후감, 서평 작성 등의 ‘질문의 세부 의도와 목적’
예를 들어, “한강 작가의 채식주의자 서평을 써줘”라는 요청은 다음과 같이 분류됩니다.
- 주제: 글쓰기
- 세부 의도: 독후감/서평 작성
이러한 체계화된 분류를 활용하기 위해 K-nearest 알고리즘을 사용하여 각 질문을 가장 적절한 주제와 세부 의도로 매핑합니다.
- 질문: 일본 먹방 여행 2박 3일 코스로 짜줘
- 세부 의도: [국내여행 계획 추천] [해외여행 계획 추천]
같은 여행 관련 대화이더라도 세부 내용에 따라 더 가까운 거리의 ‘해외여행 계획 추천’ 세부 의도로 레이블링합니다. 대규모 데이터를 분석하는 만큼, K-means와 K-nearest 알고리즘을 결합하여 두 가지 기법을 상호보완적으로 활용하는 하이브리드 방식을 사용했습니다.
하지만 서비스가 성장하면서 기존의 Topic-Intent 체계로는 포착하지 못하는 새로운 유형의 대화가 늘어났어요. 이러한 상황에서 우리는 이미 신뢰성이 입증된 K-means 클러스터링을 다시 한번 활용하여 미분류 데이터의 새로운 군집을 탐색했습니다. 그 결과, 새로운 중심점을 생성한 후 유사성 기반으로 재그룹화를 진행했고 이 과정에서 예상하지 못했던 흥미로운 사용 패턴을 발견했습니다.
* 해당 질문 내용은 이해를 돕기 위해 각색된 내용이며, 학습에 동의된 데이터만 사용하였습니다.
위와 같이 자연스럽게 형성된 사용자 패턴을 통해 AI가 더 실용적이고 맥락에 맞는 도구로 발전하고 있음을 확인할 수 있었습니다. 미분류 데이터를 재클러스터링함으로써, 사람들이 생성형 AI를 일상에서 새롭게 활용하는 패턴을 발견할 수 있었는데요, 이렇게 도출된 질문 유형 중 증가하거나 감소하는 트렌드가 발생하면 이를 신규 주제와 세부 의도로 추가하여 클러스터링 구조를 더욱 보강했습니다.
AI의 진화는 사용자의 진화를 만든다
2024년 8월, CLOVA X에 Vision 모델이 탑재되면서 흥미로운 변화가 일어났습니다.
[관련 내용 – ‘HyperCLOVA X Vision: 눈을 뜨다’ 보러 가기]
‘문제 풀이 요청’ 관련 세부 의도가 급격히 증가하여 2024년 12월에는 전체 중 2위를 기록한 것인데요, 이는 이미지 인식 기능을 통해 사용자가 더욱 간편하게 문제 풀이를 요청할 수 있어 나타난 결과로 분석됩니다.
이는 AI 모델이 성장할수록 사용자는 일상에 바로 적용하여 더 똑똑하고 최적화된 방식으로 활용한다는 것을 보여주었습니다. 자연스럽게 형성된 사용자 패턴에 따라 AI 또한 어떻게 발전하는지 알 수 있습니다.
신뢰할 수 있는 대화 클러스터링 CAST의 운영 원칙
CAST는 수많은 대화를 분석하여 의미 있는 패턴을 찾아내는 기술을 사용하고 있습니다. 그렇다면 이 데이터를 분석하는 과정에서 개인정보 보호는 어떻게 이루어지고 있을까요? CLOVA X의 대화 클러스터링 방식 CAST의 운영 원칙을 살펴보겠습니다.
CLOVA X의 대화 분석에서 가장 중요한 원칙은 사용자의 개인정보 보호입니다. CLOVA X 서비스는 사용자의 동의하에 진행되며, 인공지능 연구 및 서비스 품질 개선 등의 목적으로 데이터를 활용하지만, 사용자의 대화 로그를 비식별 처리한 후 분석합니다.
• 개인정보 보호 조치
- 데이터 활용에 동의한 사용자만 분석 대상
- 누구의 데이터인지 알 수 없도록 인코딩된 ID 부여
- 대화 세션을 구분할 수 없도록 비식별화 처리
대화 데이터의 핵심 내용 요약은 HyperCLOVA X 모델이 진행하도록 하는 등 안전하게 대화 데이터를 분석하고 있으며, 개인 정보가 유출되거나 악용되지 않도록 철저히 관리하고 있습니다. 대화 분석에 있어 사용자 개인정보 보호는 가장 핵심적인 전제이자 절대 양보할 수 없는 원칙입니다.
맺으며
생성형 AI의 성장 가능성은 신기술에 대한 단순한 호기심을 넘어, 일상에서 필수적인 가치를 제공하며 사용자의 적극적인 활용을 이끌어낼 때 더욱 커집니다. 대화 클러스터링을 위한 기술 발전의 여정은 AI와 사용자가 함께 성장하는 과정을 보여줍니다. 우리는 사용자의 질문을 나침반 삼아 끊임없이 변화하는 요구사항을 이해하고 이를 통해 더 나은 AI 서비스를 만들어갈 것입니다.