클로바 케어콜 논문(1): LLM 챗봇의 공공의료적 강점 및 난제

초거대 인공지능 기반 챗봇의 공공의료적 적용의 강점 및 난제

CHI 2023 Best Paper Award

김영호 리서치 사이언티스트 (HCI 연구 그룹 리더, NAVER AI Lab, NAVER Cloud)

개관
본 블로그 포스트에서는 인간-컴퓨터 상호작용 (HCI) 분야 최우수 학술대회인 ACM CHI에서 2023년도 베스트 논문상을 수상한 네이버의 논문을 소개합니다.

Understanding the Benefits and Challenges of Deploying Conversational AI Leveraging Large Language Models for Public Health Intervention
조은경 인턴 연구원 (캘리포니아 대학교 어바인 박사과정)
Daniel A. Epstein (캘리포니아 대학교 어바인 조교수)
정현훈 (네이버 클라우드)
김영호 (NAVER AI Lab, 네이버 클라우드)

서론
초거대 언어 모델(LLM)을 활용한 챗봇이 이제는 상당히 일반화되었고, IT 서비스 전반에 많은 영향을 미치고 있습니다. 2022년 말 ChatGPT가 세상에 공개되기 1년여 전부터 이미 네이버에서는 자체 LLM HyperCLOVA를 활용한 ‘클로바 케어콜’ 챗봇을 개발하여 지자체들과의 협력을 통해 1인 가구 구성원들에게 안부 전화 서비스를 제공하고 있었습니다. LLM 기반 챗봇이 참여자에게 주 2회 전화를 걸어 안부 대화를 수행하고, 이러한 대화 내용의 분석과 열람을 통해 지자체 복지 담당자가 적절한 대처를 할 수 있도록 만든 시스템이었는데요. 아래 그림에 케어콜의 서비스 구조가 설명되어 있습니다.

이렇게 지역사회 단위로 구성원들의 정신적 · 신체적 건강을 증진하기 위한 시스템이나 정책을 공공의료적 개입(Public Health Intervention)이라고 부릅니다. 저희 연구진은 클로바 케어콜의 사례가 ‘LLM이 공공의료적 개입을 목적으로 활용된 매우 희귀하고 귀중한 사례’라는 점에 착안하여, LLM 기반 챗봇의 공공의료적 활용에 있어 강점과 난점을 이해하는 연구를 수행하였습니다.

왜 클로바 케어콜은 인간-컴퓨터 상호작용 분야에서 중요한 의미를 가졌을까요?
케어콜 이전에도 챗봇을 공공의료적 개입을 위해 활용한 사례는 많이 있었습니다. 그러나 케어콜과 같은 LLM 기반 챗봇은 전통적인 규칙 기반, 시나리오 기반 챗봇에 비하여 사용자 경험 측면에서 매우 중요한 기술적 차이를 보입니다. 규칙 · 시나리오 기반 챗봇은 디자이너가 사전에 고려한 범위 내에서만 대화할 수 있기 때문에, 사용자가 예기치 않은 말을 할 경우 자연스럽게 응답하기가 어렵습니다. 반면에 LLM 기반 챗봇은 폭넓은 상황에 대한 사전지식을 바탕으로 자연스럽게 대화를 진행하기 때문에 사용자에게 공감받고 있다고 느끼게 해줍니다.

그러나 LLM 기반 챗봇이 갖는 특수한 난제가 있습니다. 챗봇의 응답이 사전에 짜인 시나리오가 아니라 LLM이 생성하도록 하는 방식이기 때문에 실제 서비스 시 어떻게 대화가 흘러갈지 완벽한 예측과 통제가 어렵다는 점입니다. 이러한 챗봇을 1인 가구 홀몸 어르신들처럼 취약한 사용자 집단에 직접 배포하려면 사전에 안전성을 확보해야 하고, 담당 지자체의 입장도 고려해야 합니다. 이러한 난점들 때문에 2022년 당시 LLM 챗봇이 공공의료적 차원에서 민관협력을 통해 서비스된 사례는 클로바 케어콜이 전 세계적으로 유일무이하였습니다. 기술을 중심으로 인간의 활동과 사고를 이해하는 인간-컴퓨터 상호작용(Human-Computer Interaction) 연구자들이 보기에 아주 좋은 연구 소재입니다. 취약한 사용자 집단과 LLM 챗봇의 상호작용을 들여다보는 것도 의미가 있지만, 저희 연구진은 여기에서 더 나아가, LLM의 특수성을 둘러싼 케어콜 개발팀과 케어콜을 도입하고자 하는 지자체의 입장 차이를 분석하는 것이 연구적으로 중요한 기여가 될 것이라 보았습니다.

다중 이해관계자 인터뷰 (Multi-Stakeholder Interviews)
본 연구에서는 케어콜의 세 가지 이해관계자 집단을 대상으로 인터뷰를 진행하였습니다.

1. 사용자 (5명): 케어콜 전화를 주기적으로 수신하는 1인 가구 홀몸 어르신들
2. 말벗 운영자 (5명): 지자체에 고용되어 케어콜 전화 내역의 열람을 통해 홀몸 어르신들을 살피는 복지 담당자들
3. 개발자 (10명): 네이버의 케어콜 개발팀으로, ML 엔지니어, 기획자, QA 담당자, 사업 담당자들을 포함

여기에 추가적으로 서울시에서 케어콜 사용자들을 대상으로 수행한 포커스 그룹 워크숍을 참관할 기회를 얻어 14명의 케어콜 사용자의 피드백을 간접적으로 수집할 수 있었습니다.

복지 담당자의 업무 부담을 완화함과 동시에 사용자 개개인에 대한 총체적 이해를 가능하게 합니다.
인터뷰에 참여한 말벗 운영자들은 자유 대화로 이루어진 케어콜 통화 내역을 통해 지역 홀몸 어르신들의 삶을 더 깊이 있게 파악할 수 있다고 밝혔습니다. 케어콜이 사전에 정해진 질문을 하는 것이 아니라 건강과 안부라는 큰 틀 아래에서 다양한 주제를 넘나들며 대화를 이끌었기 때문에 사용자들의 상황을 더 실감 나게 파악할 수 있었던 것이죠. 중요한 점은 케어콜의 도입 이전에는 지자체 복지 담당자들이 직접 돌봄 대상자들에게 주기적으로 전화를 걸었어야 했기에 많은 사람을 살피는 것이 현실적으로 어려웠다는 점입니다. 케어콜을 통해 일상적인 돌봄은 AI가 제공하고, 말벗 운영자들은 대화 내역을 열람하는 중에 개입의 필요성이 있을 때만 직접 개입하여 돌봄 대상자들의 문제를 해결해 줌으로써 공공의료적 복지 지원 사업을 확대할 수 있었습니다.

“케어콜이 없다면 26명에게 직접 주 2회 전화해서 똑같은 질문을 반복해야 하는데, 시간이 엄청나게 많이 걸리고 저도 신체적, 정신적으로 엄청 힘들 것 같아요. 그리고 사람이 전화했을 때는 대화가 딴 데로 새는 경우가 많아요. 우리는 식사, 수면, 운동, 건강 등 우리가 필요한 질문들을 하지만 돌봄 대상자분들은 다른 이야기들도 많이 하게 되거든요. 그러면 통화가 30분까지 길어지게 되고 계획된 시간을 한참 넘어서게 되죠.” – 말벗 운영자 2

면대면 커뮤니케이션의 부담을 줄이면서도 사용자의 외로움을 완화하여 줍니다.

그렇다면 AI와 직접 전화 통화를 하는 사용자 입장에서는 어떤 이점이 있었을까요? 연구에 참여한 사용자들은 대부분 소통의 기회가 거의 없는 분들이기 때문에, AI로부터 주기적으로 전화를 받는 것이 외로움을 이겨내는 데 도움이 되었다고 밝혔습니다. 특히 LLM 기반 자유 대화형 챗봇으로서, 케어콜이 건강 체크 외에 신변잡기 대화를 자유롭게 할 수 있다는 점이 이들에게는 더욱더 대화에 몰입하는 계기가 되었다고 합니다.

“제가 이제 ‘그림을 그린다’, ‘화가의 책을 읽는다’ 그러면 거기서(케어콜로부터) 나오는 반응들이 이제 ‘나도 배워보고 싶어요’. 이러면서 이제 친근하게 말해줄 때, 그럴 때는 저에 대해서 공감을 해주니까 아주 기분 좋았죠.” – 사용자 5

인간 사회복지사가 아닌 AI가 전화를 건다는 점에도 장점이 있었습니다. 홀몸 어르신들은 지자체 돌봄 서비스 담당자로부터 전화를 받는 것에 감정적인 부담을 느끼는 경우가 많았고, 케어콜은 사람이 아닌 AI로부터 전화가 오기 때문에 부담 없이 진솔한 대화를 할 수 있었다고 하였습니다.

“저는 (돌봄 담당자로부터) 전화가 오면 그게 제가 만성 질환이 있고 혼자 살기 때문에 체크하기 위해서라는 걸 알아요. 그런데 항상 질문 한두 개 정도만 하고 끊으니까 너무 무미건조하다는 느낌이 있지요. 그래서 차라리 AI와 통화를 하는 게 더 편해요.” – 사용자 3

LLM 기반 챗봇의 공공의료적 적용 시의 난점
여러 강점에도 불구하고 LLM이 가진 기술적 특성으로 인해 공공의료적 개입에 장벽으로 작용하는 난점들도 존재하였습니다.

LLM의 근본적 특성으로 인해 챗봇의 행동을 완벽히 통제하는 것이 어렵습니다.
케어콜 개발진은 케어콜을 개발하는 과정에서 챗봇이 공공의료 맥락에 맞지 않는 발언을 하지 않도록 통제하는 데 다양한 어려움이 있었음을 밝혔는데요. 우선 머신러닝 기법으로 바람직한 예시 대화 데이터셋을 구축하는 파인 튜닝과 하이퍼클로바 자동 생성 데이터셋 검수 시 나온 부적격 발언들의 출력 확률을 낮추는 Unlikelihood Training 등의 기술을 적용하였다고 합니다. 하지만 이러한 머신러닝 기법들은 대화를 바람직한 방향으로 이끌어줄 뿐, 부적격 발언을 완전히 차단하는 것은 확률 모델에 기반한 LLM의 특성상 불가능합니다. 그래서 케어콜 개발진은 케어콜 챗봇의 개발 과정에 대해 ‘모델을 길들인다’는 표현을 자주 사용하였습니다.

“LLM은 강한 자아를 가지고 있고, 우리는 거기에 맞서 싸워야 합니다. 부적절한 응답이 나오면 그 응답을 직접 고칠 수 있는 것이 아니라 수많은 시도와 실패를 반복해야 하고, 그래서 완벽히 통제 가능한 LLM 챗봇을 만든다는 것은 매우 어려운 것 같습니다.” – 개발진 9

“규칙 기반 챗봇에서 부적절한 응답을 고치려면 그냥 시나리오를 수정하면 됩니다. 그런데 LLM 기반 챗봇에서는 그러한 응답이 나오도록 하는 대화 패턴을 먼저 찾아내고 이를 보완하는 추가적인 학습을 가해야 하죠. 그렇기 때문에 챗봇의 제어가 훨씬 어렵습니다.” – 개발진 2

지자체별로 상이한 공공의료적 니즈에 대한 커스터마이징이 어렵습니다.
케어콜 개발진이 언급한 LLM 통제의 불확실성 문제로 인해 지자체와 개발진 사이에 소통 이슈가 생기기도 합니다. 이는 케어콜 사업 측면에서 케어콜이 공공의료적 챗봇 기술로서 각 지자체에 소개되었기 때문에, 지자체에서는 해당 지역에서 중요하게 보는 건강지표를 케어콜을 통해 수집할 수 있을 것으로 기대했기 때문인데요. 예를 들어 치매 인구의 비중이 높은 것이 고민인 지자체에서는 케어콜 통화에서 치매 인자에 대해 파악할 수 있는 질문을 삽입하길 원하는 것이죠. 이는 과거 챗봇 기술이 주로 규칙 · 시나리오 기반으로 만들어졌다 보니 지자체에서는 이러한 시각으로 케어콜 기술을 이해하고자 하므로, 특수 질문의 삽입이 당연히 가능할 것으로 예상했기 때문이라고 봅니다.

“저희가 할 수 있는 건 특정 질문을 포함한 대화 데이터셋을 추가로 만들어 파인 튜닝을 하는 것뿐인데, 이는 그런 질문이 등장할 확률만을 높여줄 뿐이고 모든 통화마다 챗봇이 해당 질문을 할 거라고 보장할 수는 없죠.” – 개발진 5

케어콜 챗봇은 다량의 안부 대화 데이터셋의 파인 튜닝을 통해 만들어졌는데요, 이 대화 데이터셋은 노년층 사용자와의 일상 대화 예시로 이루어져 있습니다. 그렇다 보니 어떤 지자체의 1인 가구 인구는 4~50대의 비중이 높았고, 케어콜의 대화가 이들의 상황에 맞지 않는 경우도 있었습니다.

“사용자가 허리가 아프다고 하면, 케어콜은 ‘나이 들면 다 그런 거죠’ 하며 맞장구를 칠 확률이 높아요. 이런 답변은 70대 사용자에게는 적절하지만, 40대에게는 어색하죠.” – 개발진 2

하지만 챗봇이 새로운 특성의 사용자군에 맞춘 대화를 수행하도록 하기 위해서는 새로운 예시 대화 데이터셋을 만들어야 하는데, 고비용과 많은 시간을 들여 이루어지는 데이터셋 구축을 새로 하는 것은 현실적이지 않아 이러한 지자체의 요구는 수용하기 어려웠다고 합니다.

마치며
본 연구에서는 LLM 기반의 챗봇을 공공의료적 개입 기술로 실제 지역사회에 배포한 클로바 케어콜의 사례를 바탕으로 다중 이해관계자 인터뷰를 통해 공공의료 분야에서 LLM 기반 챗봇 활용의 강점과 난점을 살펴보았습니다. ChatGPT의 성공으로 대중의 LLM에 대한 친숙함과 이해도가 높아지고 있고, LLM 관련 기술 또한 빠르게 발전하고 있기 때문에 본 연구에서 다룬 많은 난점이 이제는 점점 해결되고 있다고 보고 있습니다. 다만 여전히 LLM 행동 제어방식의 특성으로 인한 불확실성은 인간-AI 상호작용 연구가 계속하여 이루어져야 함을 시사하고 있습니다.

[전체 논문 보기]