섬세한 요구사항, AI가 해낼 수 있을까?
서비스마다 요구사항이 생각보다 복잡하다는 것, 다들 공감하시나요? 같은 요청이라도 맥락과 서비스별 정책에 따라 다르게 처리해야 하는 경우가 많은데요. 단순한 규칙만으로는 이런 복잡한 상황을 해결하기가 쉽지 않습니다. 특히 자동화를 도입하는 과정에서 이런 어려움이 더욱 두드러지게 나타나죠.
예를 들어 브랜드 챗봇 서비스는 일반적인 제품 문의에는 자연스러운 답변을 제공하면서도, 경쟁사 제품 추천 요청은 적절히 차단할 수도 있어야 합니다. 또 민감한 가격 정책이나 공식 입장이 없는 주제는 조심스럽게 회피해야 하는 상황도 있고요.
AI가 이 문제를 어떻게 풀어낼 수 있을까요?
맥락을 제대로 이해하지 못하면 잘못된 판단으로 이어질 수 있고, 이는 서비스 품질과 사용자 경험에 부정적인 영향을 미치게 되는데요. 이를 효과적으로 자동화하려면 각 서비스의 정책과 맥락을 정확히 반영하여 최적의 처리 경로를 찾아주는 도구가 필요합니다. 바로 여기에서 LLM 기반의 라우터 기술이 중요한 역할을 합니다.
AI 도입을 위한 필수 솔루션, 라우터
AI로의 전환(AX)이 빠르게 진행되면서, 많은 기업이 AI를 어떻게 효과적으로 도입하고 운영할 수 있을지 고민하고 있는데요. 정확한 데이터 흐름을 설계하고, 다양한 요구사항을 반영하면서도 서비스의 신뢰성을 높이는 것이 무엇보다 중요합니다.
이런 상황에서 라우터는 AI 도입의 복잡성을 해소하고, 즉각적인 적용을 가능하게 해주는 핵심 솔루션이 되어주고 있습니다. 별도의 튜닝 없이도 높은 정확도를 유지하면서, 서비스 자동화를 더욱 빠르고 효율적으로 만들어주기 때문입니다.
1. 더 정확한 AICC 채널링
고객 문의를 빠르고 정확하게 분류하는 것은 AICC(AI Contact Center)에서 가장 중요한 요소 중 하나입니다. 하지만 기존 NLU(Natural Language Understanding) 기술은 다양한 표현을 정확히 이해하는 데 한계를 보였습니다.
예를 들어, “환전하고 싶어요”는 쉽게 분류되지만, “돈 좀 달러로 바꾸고 싶은데..” 같은 변형된 표현은 인식하지 못하는 경우가 많았습니다. 반대로, “환전하려고 하는데, 환율 우대를 받으려면 어떻게 해야 하나요?”는 실제로는 ‘환율 우대 문의’지만, 기존 시스템에서는 ‘환전 신청’으로 잘못 분류될 가능성이 큽니다.
라우터는 다양한 표현에도 흔들리지 않고 고객 의도를 정확히 해석해 상담 흐름을 최적화하고, 상담 효율성과 고객 만족도를 높입니다.
2. 튜닝 없이 바로 쓰는 문서 분류
긴 문서를 AI로 분류하려면 대량의 학습 데이터 구축과 반복적인 모델 튜닝이 필요해 유지 비용이 높았습니다. 기존 머신러닝 모델은 새로운 카테고리를 추가할 때마다 재학습이 필요했지만, 라우터는 제로샷(Zero-shot) 기반으로 별도의 학습 없이도 정확하게 분류할 수 있습니다.
예를 들어, 뉴스 기사는 정치ㆍ경제ㆍ사회ㆍ문화로 자동 분류하고, 블로그 글은 ITㆍ건강ㆍ여행 등으로 나눌 수 있으며, 고객 리뷰도 긍정ㆍ중립ㆍ부정으로 감정을 분석할 수 있습니다. 라우터는 이러한 작업을 자동화하여 분류 학습 비용을 절감하면서도 더욱 빠르고 정밀한 콘텐츠 관리가 가능하도록 돕습니다.
3. 유연한 서비스 특화 필터링
기존 키워드 필터링은 단어 매칭에만 의존해 문맥을 고려하지 못하는 경우가 많았습니다. 하지만 라우터를 활용하면 키워드만 확인하는 것이 아니라, 문맥까지 분석해 더욱 정교하게 필터링할 수 있습니다. 예를 들어, 특정 브랜드 언급을 제한해야 하는 경우에도 텍스트 내 키워드 포함 여부만 따지는 것이 아니라, 해당 표현이 직접적인 홍보인지 일반적인 언급인지까지 구별할 수 있습니다. 또한, 정책상 금지된 주제나 특정 기준을 위반하는 콘텐츠도 더욱 세밀하게 조정할 수 있습니다. 라우터는 이러한 고도화된 필터링을 통해 서비스 신뢰성을 높이고, 정책 준수를 자동화하며, 불필요한 수작업을 최소화하여 콘텐츠 관리의 효율성을 극대화합니다.
4. 생성형 AI 서비스의 안전 레이어
생성형 AI는 강력한 도구이지만, 의도치 않게 부적절한 응답을 생성할 위험이 있습니다. 혐오 발언, 폭력적인 표현, 개인정보 유출 등은 서비스 정책을 위반할 뿐만 아니라, 사용자에게 부정적인 영향을 미칠 수 있습니다.
이를 방지하기 위해 라우터는 AI 응답을 실시간으로 검토하고 조정하는 ‘안전 레이어’ 역할로 활용할 수 있습니다. 단순한 금지어 차단이 아니라 서비스 정책과 윤리 기준을 반영하여 응답의 적절성을 평가하고, 위험성이 높은 응답을 자동으로 감지해 차단합니다.
AI 활용이 확대될수록 윤리적 문제와 안전성에 대한 우려도 커지고 있습니다. 라우터는 위험한 발언을 사전에 차단하고, 민감한 콘텐츠를 조정하며, 각 서비스에 맞는 안전 정책을 적용해 생성형 AI가 신뢰할 수 있는 방식으로 운영되도록 돕습니다.
LLM 라우터, 서비스의 똑똑한 길잡이
효율적인 서비스 운영을 위해서는 어떤 것이 필요할까요? 바로 들어오는 정보를 정확하게 분류하고, 적절한 대응 방안을 빠르게 결정하는 것인데요. 라우터는 이 역할을 수행하는 핵심 기술입니다.
예를 들어, 커머스 서비스에서는 상품을 단순히 카테고리에 맞게 분류하는 것만으로는 충분하지 않습니다. 제품 설명까지 분석해 정책에 맞지 않는 표현을 감지하거나, 추가 검토가 필요한 사항을 자동으로 식별하는 기능이 필요할 수 있습니다. 라우터는 이러한 작업을 자동화하여, 운영자가 비즈니스 변화나 정책 수정에 더욱 유연하게 대응할 수 있도록 돕습니다. 라우터가 정교한 분석을 수행할 수 있는 이유는 도메인(domain)과 필터(filter) 개념을 활용해 데이터를 체계적으로 분류하기 때문입니다.
- 도메인: 데이터를 분류하는 주요 카테고리 (예: 스킨케어, 주방기기 등)
- 필터: 특정 도메인 내에서 적용되는 세부적인 규칙 (예: 스킨케어 제품의 알레르기 유발 성분 기재 여부)
라우터의 실제 적용 사례
적용 영역 | 데이터 | 라우터의 판단 | 결과 |
상품 등록
시스템 |
[제품 설명] 이 제품은 세라마이드와 히알루론산이 함유되어 있어 건조한 피부를 촉촉하게 가꾸어줍니다. | ① [도메인 분류] 스킨케어 ② [필터] 해당 없음 |
등록 승인 |
[제품 설명] 이 믹서기는 사용 후 반품이 불가능하며, 전자 제품 특성상 초기 불량이 아닌 경우 환불도 불가합니다. | ① [도메인 분류] 전자제품 ② [필터] 판매 정책 위반 감지 |
등록 보류 | |
고객 지원 챗봇 |
[고객 질의] 제품을 받았는데 결함이 있어요. 환불 요청을 하고 싶습니다. | ① [도메인 분류] 환불 신청 ② [필터] 해당 없음 |
답변 제공 |
[고객 질의] 이 제품 리뷰에 대해 나쁜 평가가 많은데, 그 이유가 뭔가요? | ① [도메인 분류] 제품 문의 ② [필터] 부정적 평가 유도 감지 |
답변 제한 |
이처럼 라우터를 활용하면 단순한 키워드 매칭이 아닌 서비스가 요구하는 규칙을 반영한 복합적인 분석을 할 수 있습니다. 비속어 감지, 악의적 요청 차단, 규제 준수 자동화 등 다양한 역할을 수행하며, 실시간으로 변화하는 환경에서도 유연하게 대응할 수 있도록 돕습니다.
라우터의 학습 비밀 – 정교한 학습 데이터 설계
라우터는 별도의 튜닝 없이 서비스에 대한 설명(프롬프트)만으로도 다양한 시나리오에서 빠르고 정확하게 작동합니다. 이는 HyperCLOVA X 모델을 기반으로 다양한 상황을 학습했기 때문입니다.
- 다양한 데이터 증강 기법: 프롬프트의 순서를 변경하거나 재작성하는 방식으로 학습 데이터의 다양성을 확보했습니다.
- 멀티턴 대화 데이터 포함: 대화의 일부가 아니라 전체를 학습함으로써 맥락에 대한 이해도를 높이고 예측 능력을 강화했습니다.
- Hard Negative 데이터 구축: 모델이 혼동하기 쉬운 예외적 사례를 포함하여 분류 성능을 높였습니다. Hard Negative 데이터는 특정 카테고리(positive)로 분류될 가능성이 있지만, 실제로는 해당하지 않는(negative) 데이터를 포함합니다. 이러한 데이터는 일반적인 negative 샘플보다 더 까다롭기 때문에 모델의 분류 성능을 높이는 데 중요한 역할을 합니다.예를 들어 제품 설명이 포함되어 있지만, 실제로는 번역 요청을 의미하는 문장은 모델이 ‘제품 설명’으로 잘못 분류할 가능성이 높기 때문에 Hard Negative 데이터가 필요합니다.
타입 데이터 라우터의 판단 Hard negative [제품 설명] 이 제품은 세라마이드와 히알루론산이 함유되어 있어 건조한 피부를 촉촉하게 가꾸어줍니다.위 제품 설명을 영어로 번역해주세요 [도메인 분류] 해당 없음 Negative 내일 정자동 날씨좀 알려주세요 [도메인 분류] 해당 없음 Positive [제품 설명] 이 제품은 세라마이드와 히알루론산이 함유되어 있어 건조한 피부를 촉촉하게 가꾸어줍니다. [도메인 분류] 스킨케어
- Chain-of-Thought(CoT) 적용: 사용자의 의도를 파악하고 최적의 판단을 내릴 수 있도록 설계되었습니다.
(1) 사용자의 의도를 파악하고, (2) 예상 가능한 결과를 검토한 후, (3) 최적의 판단을 내립니다.
이러한 정밀한 추론 과정을 거치면서도, 라우터는 경량 모델을 기반으로 학습되어 큰 지연 없이 빠른 속도로 예측을 반환합니다.
라우터의 성능 평가
라우터의 실제 성능은 어떨까요? 성능을 검증하기 위해, 기존 학습 및 평가 데이터와는 다른 형식의 OOD(out-of-domain) 데이터를 활용하여 실제 서비스 시나리오를 반영한 성능 테스트를 진행했습니다. 평가 데이터는 CLOVA X의 스킬 6개(네이버 쇼핑, 네이버 여행, 쏘카, 원티드, 컬리, 트리플)를 개별 도메인으로 설정하여 활용하였고, 각 도메인에 대해 싱글턴 및 멀티턴 대화 시나리오를 구성하여 평가를 진행했습니다. 해당 도메인은 모두 학습 과정에서 등장한 적 없는 도메인으로 모델의 일반화 성능을 검증하기에 적합합니다.
결과적으로 라우터는 타사 모델과 비교하여 도메인 및 필터링 성능에서 유사한 수준을 보이며, 특히 문맥을 반영하는 멀티턴 대화 시나리오에서도 높은 성능을 유지했습니다. 특히, O사의 최신 모델이 상용 모델 중 최고 성능을 보이는 점을 감안하면 HyperCLOVA X 경량 모델만으로 유사한 성능을 구현했다는 점에서 비용 대비 효율성이 두드러집니다.
테스트 환경 | 모델 | Domain | Filter | End-to-end |
싱글턴 대화 | O사 모델 | 0.99 / 0.01 | 0.96 / 0.04 | 0.89 / 0.04 |
라우터 | 0.98 / 0.01 | 0.93 / 0.04 | 0.9 / 0.06 | |
멀티턴 대화 | O사 모델 | 0.99 / 0.04 | 0.84 / 0.03 | 0.95 / 0.1 |
라우터 | 0.97 / 0.01 | 0.86 / 0.04 | 0.92 / 0.08 |
- 성능 지표(각 값은 F1 Score / FPR 형식으로 표기됨)
- F1 Score: 오분류 유형을 고려한 종합적인 분류 성능을 나타내는 지표(1에 가까울수록 성능이 우수함)
- FPR(False Positive Rate): 데이터를 잘못 분류한 비율(0에 가까울수록 분류 오류가 적음)
- 평가 항목
- Domain: 카테고리 분류 성능
- Filter: 특정 도메인 내 세부 규칙 필터링 성능
- End-to-end: 전체 평가 데이터의 종합 성능
- 테스트 환경
- 싱글턴 대화: 입력을 개별적으로 처리할 때의 성능
- 멀티턴 대화: 대화형 시나리오에서 이전 발화(1턴)를 고려한 성능
라우터는 일반적인 대화뿐만 아니라 긴 문서 분류 작업에서도 우수한 성능을 보였습니다. 이를 통해 다양한 서비스 환경에 유연하게 적용할 수 있으며, 높은 확장성을 갖추고 있다는 것을 확인할 수 있었습니다.
라우터의 성능을 최대화하는 방법
라우터는 모델 튜닝 없이도 자연어 설명만으로 조정할 수 있다는 점이 큰 강점입니다. 따라서 기대한 성능을 얻으려면 자연어 설명을 명확하고 구체적으로 작성하는 것이 무엇보다 중요합니다. 설명이 구체적이고 일관되면 높은 정확도와 유연성을 동시에 유지할 수 있지만, 모호한 표현이나 경계가 중복되면 예상 밖의 결과가 나올 수 있습니다. 결국 라우터를 효과적으로 활용하려면 도메인과 필터의 기준을 명확하게 설정해 두어야 합니다.
도메인 범위를 명확하게
서비스마다 필요한 도메인은 조금씩 다르지만, 도메인 간 차이가 미묘할 경우 이를 제대로 정의하지 않으면 라우터가 혼동을 일으킬 가능성이 높습니다. 기존의 머신러닝 기반 분류 모델이라면, 이런 미묘한 차이를 데이터 구축과 학습 과정에서 일관되게 유지하기가 매우 까다롭습니다. 그러나 라우터는 제로샷 방식으로 동작하기 때문에, 명확한 자연어 설명만 제공하면 별도의 학습 없이도 제대로 작동할 수 있습니다.
예를 들어, 아래 도메인들은 모두 ‘건강’이라는 큰 범주 안에 있지만 각각의 목적과 범위가 조금씩 다릅니다. 각 도메인의 기준을 분명히 서술해 두면 라우터가 보다 정확하게 분류할 수 있습니다.
- 의료: 질병이나 상해의 원인, 증상, 치료, 약물, 수술 등과 같은 전문적ㆍ임상적 의료 행위에 관한 내용을 다룹니다. (예: “추간판 탈출증 치료 방법은?”)
- 피트니스: 운동 루틴과 스트레칭, 근력 강화, 유산소 운동 등 일상적인 트레이닝을 통한 체력ㆍ신체 능력 향상에 관한 내용을 다룹니다. (예: “추간판 탈출증 회복에 좋은 스트레칭은?”)
- 영양: 음식과 식이요법, 보충제 등을 활용한 영양 섭취 및 식습관 관리에 관한 정보를 다룹니다. (예: “추간판 탈출증 회복에 도움이 되는 영양제는?”)
- 생활 건강: 일상에서 실천할 수 있는 건강 습관과 예방적 관리 방법을 중심으로, 신체적ㆍ정신적 웰빙을 유지하고 증진하기 위한 내용을 다룹니다. (예: “추간판 탈출증을 예방하는 자세와 습관은?”)
이처럼 도메인별 목적과 범위를 구체적으로 설정하면 경계를 훨씬 명확하게 구분할 수 있으며, 필요에 따라 유연하게 조정하는 것도 가능합니다. 여기서 ‘의료기기’라는 새로운 도메인을 추가하고 싶다면, 라우터에 다음과 같은 자연어 설명을 간단히 추가하기만 하면 됩니다.
- 의료기기: 질병·상해 관리나 재활 등을 위해 사용하는 보호대, 측정 기기, 물리적 보조 장비 등 의료 보조 도구에 관한 정보를 다룹니다. (예: “추간판 탈출증 회복에 효과적인 보호대는?”)
즉, 잘 정리된 설명 하나만으로도 도메인의 확장과 운영이 한결 수월해집니다. 만약 특정한 케이스에서 분류 오류가 발생한다면, 복잡한 모델 수정 없이도 예시나 설명을 보강하는 것만으로 빠르게 대응할 수 있습니다.
필터 경계를 깔끔하게
콘텐츠 필터링을 적용할 때도 마찬가지로, 필터 간 경계가 모호하면 예기치 않은 분류 오류가 일어날 수 있습니다.
예를 들어, ‘비윤리적인 내용을 감지하는 필터(Unethical)’와 ‘논란이 될 수 있는 내용을 감지하는 필터(Contentious)’는 개념상 유사하기에 기준이 불투명하면 충돌이 발생할 수 있습니다. “이 정치인은 부패했다.”라는 문장은 어느 필터에 의해 감지될지 예측하기 어렵습니다.
- Unethical: 윤리적으로 문제가 있는 내용을 감지합니다.
- Contentious: 사회적으로 논란이 될 수 있는 내용을 감지합니다.
이를 방지하려면 필터 간 역할을 구체적으로 정의하여 혼선을 줄여야 합니다. 아래처럼 필터의 적용 범위를 확실히 나누면, 훨씬 일관된 필터링이 가능합니다.
- Unethical: 명예훼손, 범죄 조장, 폭력적인 내용, 차별적 발언 등 명백히 비윤리적이거나 사회적으로 용인될 수 없는 표현을 감지합니다.
- Contentious: 정치, 종교, 정책 등 논란의 여지가 있는 주제에 대해 편향적이거나 과격한 의견을 감지합니다.
또한, 초기에 명확하다고 생각한 기준이라도 실제 서비스 과정에서 특정한 케이스가 발견되면 지속적으로 보완이 필요합니다. 라우터의 경우, 복잡한 재학습 없이 자연어 설명만 수정하면 되므로 변화에 유연하게 대응할 수 있습니다.
라우터는 추가 튜닝 없이 사용자 설명을 기반으로 움직이는 시스템이기에 사용자가 얼마나 체계적이고 명료하게 설명을 작성하느냐에 따라 성능이 달라집니다. 도메인과 필터의 기준을 명확히 정리해 두기만 해도 별도의 학습 과정 없이 강력한 분류 시스템을 구성할 수 있으며, 상황이 바뀌더라도 설명만 보완하면 손쉽게 대응할 수 있습니다.
마치며
향후 CLOVA Studio를 통해 라우터가 제공될 예정인데요, 기업들은 라우터를 용도에 맞게 커스터마이징하여 다양한 서비스에 쉽게 적용할 수 있게 됩니다.
AI 기술이 비즈니스와 서비스 운영에 실질적인 가치를 더하는 시대가 왔습니다. 변화의 시대 속에서 라우터는 그 중심에서 핵심 역할을 할 것이라 기대됩니다.