Dec 2, 2024

음성으로 소통하는 AI, 사람의 감정까지 이해하다

Image for 음성으로 소통하는 AI, 사람의 감정까지 이해하다

음성으로 소통하는 AI, 사람의 감정까지 이해하다

우리의 소통은 단순히 말의 내용만으로 이루어지지 않습니다. 말투, 어조, 속도 등 다양한 비언어적 요소를 함께 사용하여 감정과 의도를 전달하죠. 슬픈 목소리로괜찮아라고 말할 때와 밝은 목소리로 말할 때 그 의미는 완전히 달라질 수 있습니다.

지금까지 AI와의 대화는 자연스럽지 못했습니다. 단순히 어색한 말투 때문만이 아니라, 대화의 맥락을 제대로 이해하지 못하고 벗어나는 경우가 많았기 때문입니다. 이는 AI가 텍스트 기반으로 정보를 인식하고 답변을 생성한 뒤 음성으로 확장하는 방식으로 작동하기 때문입니다. 영화아이언맨에 등장하는 자비스처럼 자연스러운 상호작용이 가능한 AI를 구현하기 위해서는 인간 소통의 미묘한 뉘앙스와 맥락을 이해할 수 있어야 합니다.

 

AI 음성 대화의 진화

최근 AI 음성 기술은 급격한 발전을 이루고 있습니다. 지난 5, OpenAI GPT-4를 기반으로 한 음성 대화 기능을 출시하여 큰 주목을 받았고, 아마존도 음성 대화가 가능한 알렉사(Alexa) 업그레이드 모델을 연내 출시할 예정입니다.

기존 텍스트 기반 AI 모델과의 차이점은 음성을 수단으로 소통할 수 있고, 말의 내용뿐만 아니라 내포된 감정까지 이해할 수 있다는 것입니다. 물론 인간의 복잡한 감정을 완벽하게 이해하고 표현하기까지는 아직 많은 연구가 필요하기는 하지만, 이를 해결할 수 있는 새로운 접근 방식이 적용되었다는 점에 의의가 있습니다.

 

기존 방식의 한계: 감정 정보의 손실

지금까지의 음성 AI캐스케이드(Cascade)’ 방식으로 구현되었습니다. 사용자가 말하면 이를 텍스트로 변환하고(STT), AI가 이를 처리한 뒤 다시 음성으로 바꾸는(TTS) 방식입니다. 통역사를 거치는 것처럼, 음성텍스트 → AI 처리텍스트음성의 과정을 거칩니다. 이 과정에서 운율과 감정 등의 비언어적 요소(Paralinguistic) 대부분이 유실될 수밖에 없습니다.

 

새로운 접근 방식: 감정을 이해하는 AI

최근에는엔드투엔드(End-to-End)’라는 새로운 방식을 적용하고 있습니다. 이 방식의 핵심은 음성을 단순히 텍스트로 변환하는 것이 아니라, 음성에 담긴 비언어적 요소까지 그대로 보존하면서 처리한다는 점입니다. 어떻게 가능할까요?

엔드투엔드 방식은 음성 Feature를 추출하고대답 음성 Feature를 생성하고대답 음성 Feature를 음성 형태로 복원하는 3단계로 구성됩니다.

이에 필요한 USDM (Unified Spoken Dialog Model) 모델을 개발하는 과정은 다음과 같습니다. 우선 텍스트 기반 언어 모델을 구축하고 음성을 처리할 수 있도록 확장합니다. 그리고 실제 대화 데이터로 모델을 세밀하게 조정하는 과정을 거칩니다.

AI는 스피치 토크나이제이션(Speech Tokenization) 기술을 통해 음성 대화의 감정 정보를 인식하고 미세한 어조 변화나 비언어적 뉘앙스까지 파악할 수 있습니다. 또한 인터리빙(Interleaving) 방식의 학습을 적용하여 문맥에 맞는 응답을 생성하고, 상황에 맞는 어조로 대화할 수 있습니다.


예를 들어 누군가가 슬픈 목소리로괜찮아라고 말했을 때
1.  입력된 음성의 감정 특성(낮은 톤, 느린 속도, 약한 음량 등)을 분석합니다.
2. 이런 패턴이실제로는 괜찮지 않은상황과 연결된다는 것을 파악합니다.
3. 상황에 맞는 공감적인 답변을 따뜻한 톤으로 생성합니다.

 

엔드투엔드 방식의 학습을 통해 멀티태스킹을 적용한 감정 인식의 정확도가 73.62%에 이른다는 내용을 다룬 연구가 공개되기도 했는데요. 비언어적 정보를 포착하는 능력이 실제로 크게 개선되었음을 보여주고 있습니다. 언급한 두 가지 기술에 대해 조금 더 자세히 알아보도록 하겠습니다.

[연구 자세히 보기]

 

스피치 토크나이제이션(Speech Tokenization)

음성은 연속적인 값을 가진 파형입니다.

음성 파형에는 말의 내용뿐만 아니라 감정, 어조, 속도, 억양 등 다양한 정보가 담겨 있습니다. 토크나이제이션은 이러한 음성 정보를 LLM이 학습할 수 있도록 시간 축으로 압축하고 정수로 변환하는 과정입니다. 이때 가장 중요한 것은음성을 몇 개의 정수 단위로 표현할 것인가입니다. 단위가 너무 적으면 중요한 정보가 손실될 수 있고, 너무 많으면 처리 효율성이 떨어지기 때문입니다. 고해상도의 사진이 미세한 색상 정보까지 포함하는 것에 비유할 수 있습니다.

현재까지의 연구는 음성을 1만 개의 토큰으로 토크나이제이션 했을 때 가장 효율적이라고 판단하고 있습니다. 이는 1만 단위의 정수로 치환했을 때 발화의 내용뿐 아니라 감정이나 어조와 같은 정보까지도 데이터로 변환할 수 있음을 의미합니다. 실제로 본래 음성을 토크나이제이션 해서 얻은 정수 형태의 데이터를 다시 복원하였을 때 음의 높낮이나 음성의 변화 추이 등이 원본과 동일함을 확인할 수 있었습니다.

스피치 토크나이제이션을 통해 1만 개의 토큰으로 변환한 데이터에는 다음과 같은 정보들이 포함됩니다.

  • 발화 내용과 발음
  • 음성의 피치 변화 패턴
  • 말하는 속도와 리듬
  • 음량의 변화
  • 감정을 나타낼 수 있는 음성 특징

 

인터리빙(Interleaving)

기존 AI는 한 번에 텍스트만 처리하거나 음성만 처리하는 방식이었습니다. 반면 의사소통에 사용되는 언어는 텍스트(내용)와 음성이 자연스럽게 융합된 형태입니다. 이러한 인간의 언어 처리 방식을 AI 학습에 적용한 접근 방식이인터리빙입니다.

인터리빙(Interleaving)’은 AI가 서로 다른 유형의 데이터, 즉 텍스트와 음성을 교차 학습하는 방식입니다. 이러한 방식을 통해 AI는 텍스트의 의미적 정보와 음성의 운율적(억양, 강세, 템포 등) 특성을 통합적으로 이해할 수 있게 됩니다. 또한 학습 데이터셋을 배치하는 순서를 다양하게 구성함으로써, AI는 여러 맥락에서 두 모달리티 간의 상관관계를 더 효과적으로 학습할 수 있습니다.


[인터리빙 방식으로 학습 예시]
1. “안녕하세요” (텍스트)
2. [상대방의 밝은 목소리 음성 토큰]
3. [따뜻한 어조의 음성 토큰]

4. “네, 반갑습니다” (텍스트)


AI 감정 인식 기술의 발전과 활용 가능성

AI의 감정 인식 기술 발전은 단순한 음성 인터페이스 개선을 넘어 인간과 AI의 상호작용 방식을 근본적으로 변화시키고 있습니다. 이는 AI가 기능적 도구에서 대화 파트너로 진화하는 과정이라고 볼 수 있습니다. 현재 음성 토크나이제이션은 약 1만 개의 토큰을 사용하지만, 앞으로 더 효율적인 변환 방식이 개발될 수 있고, 인터리빙 학습도 음성과 텍스트를 넘어 이미지, 비디오 등 다양한 형태의 데이터를 포함하는 방향으로 발전할 수 있습니다.

이러한 기술 발전은 교육, 의료, 고객 서비스 등 다양한 분야에서 실용적인 변화를 불러올 것으로 전망됩니다.

  • 서비스 분야에서의 활용: AI가 고객의 감정과 의도를 정확하게 파악하고, 실시간으로 적절하게 반응할 수 있다면 고객 경험의 질을 크게 향상시킬 수 있습니다. 또한, 이전에 불만을 표시한 고객에게 더욱 세심하고 공감적인 대응 방식을 적용하는 등의 맞춤형 응대가 가능합니다. 고객의 피드백을 텍스트나 음성 형태로 분석하여 긍정적, 중립적, 부정적 감정을 분류하여 보다 체계적으로 활용할 수도 있습니다.


  • 의료 분야에서의 활용: AI는 음성 패턴 분석을 통해 감정 상태와 정신 건강을 감지하는 데 활용될 수 있습니다. 일부 연구는 AI가 우울증과 같은 정신 건강 문제를 진단할 가능성을 보여주고 있고, AI가 의료 분야에서 정신 건강 모니터링을 지원할 수 있다는 기대도 커지고 있습니다.


  • 교육 분야에서의 활용: 학습자들이 좌절하거나 흥미를 잃을 때 이를 감지하고, 학습 지원 방식에 변화를 줄 수 있습니다. 실제로 감정을 인식할 수 있는 AI 튜터를 도입한 파일럿 프로그램에서 학습자의 성취도가 향상된 사례가 보고되고 있습니다.

 

AI가 사람의 감정을 이해할까요?

여기서 한 가지 중요한 의문이 들 수 있습니다.

AI가 실제로 사람처럼 감정을 느끼고 이해하게 된 것일까요? 그렇지는 않습니다. AI는 감정을 직접 경험하는 것이 아니라, 기존 LLM이 텍스트 패턴을 학습하여 재현하는 것처럼 사람들의 대화 패턴을 정교하게 학습하고 재현합니다.

또 다른 의문점은 ‘AI가 음성 토큰을 특정 감정 카테고리로 분류하여 인식하는가라는 것입니다. 그것도 아닙니다. AI이것이 슬픈 감정이다또는이것이 기쁜 감정이다라는 식으로 감정을 분류하여 식별하지 않습니다. 대신 다음과 같은 방식으로 작동합니다:

  1. 패턴 학습
    – 대규모 대화 데이터에서 음성 패턴과 문맥의 관계를 학습
    – 특정 상황에서 자주 나타나는 음성 특징들의 조합을 파악
    – 예시 : “축하해라는 말과 밝고 높은 음성 패턴이 자주 결합되는 것을 학습

  2. 상관관계 파악
    – 음성의 특성(높낮이, 속도, 강약 등)과 대화 맥락 간의 관계 분석
    – 예시:
    A. 슬픔 연관 패턴: 낮은 톤 + 느린 속도 + 작은 음량
    B. 기쁨 연관 패턴: 높은 톤 + 빠른 속도 + 큰 음량

  3. 패턴 재현
    – 학습한 패턴을 바탕으로 상황에 적합한 음성 특성 재현
    – 예시 :
    A. 위로가 필요한 상황 : 부드럽고 낮은 톤의 음성 패턴 사용
    B. 축하하는 상황 : 밝고 경쾌한 톤의 음성 패턴 사용

             

            # 실제 대화 상황으로 알아보기 

            누군가가 슬픈 목소리로괜찮아라고 말했을 때 AI는 다음과 같이 처리합니다.


            1. 입력 패턴 분석

            – 말의 내용: “괜찮아

            – 음성 특성: 낮은 톤, 느린 속도, 약한 음량 등

            – 이런 패턴이 학습 데이터에서 주로실제로는 괜찮지 않은상황과 연관됨을 파악합니다.


            2. 문맥 파악

            “괜찮아라는 텍스트와 슬픈 음성 패턴의 조합이 실제로는위로나 공감이 필요한 상황을 의미한다고 이해합니다.

            그 외 대화의 전후 맥락과 음성 특징을 종합적으로 분석합니다.


            3. 적절한 응답 생성

            상황에 맞게 공감할 수 있는 단어를 선택하고, 부드럽고 따뜻한 톤의 음성 패턴을 적용합니다.

            (따뜻하고 안정적인 톤으로) “무슨 일이 있었는지 더 이야기해 주실래요?”라고 이야기할 수 있습니다.

             

            AI 기술 혁신의 지향점

            AI는 이제무엇을말할지 뿐만 아니라어떻게말해야 하는지도 학습할 수 있게 되었습니다. 이는 AI와 인간의 자연스러운 소통을 위한 중요한 진전입니다. 물론 AI가 인간의 대화 패턴을 정교하게 모방하는 데 그친다는 점에서 기존 LLM이 가진 한계와 유사한 제약이 있을 수 있습니다. 또한 음성 복제나 프라이버시 침해와 같은 새로운 윤리적 과제들도 고려해야 합니다.

            하지만 Audio LLM과 같은 기술 발전의 핵심은 단순한 성능 향상이 아닙니다. 이는 AI가 인간의 의도와 맥락을 더 정확히 이해하고, 이에 적절히 반응할 수 있게 하는 것에 있습니다. 비록 AI가 진정한 의미의 감정적 공감을 하는 것은 아니지만, 더 세밀한 상황 인식과 적절한 반응을 통해 사용자의 필요를 더 효과적으로 충족시킬 수 있게 되었습니다. 이러한 발전은 AI 기술의 진보를 넘어, AI와 인간이 상호 보완적으로 발전할 수 있는 새로운 차원을 열어주고 있습니다.