장기 기억 능력이 갖는 사용자 입장에서의 개인적 · 공공의료적 가치
CHI 2024 Paper
김영호 리서치 사이언티스트 (HCI 연구 그룹 리더, NAVER AI Lab, NAVER Cloud)
개관
본 블로그 포스트에서는 인간-컴퓨터 상호작용 (HCI) 분야 최우수 학술대회인 ACM CHI에서 2024년도에 발표된 네이버 클라우드의 논문을 소개합니다.
Understanding the Impact of Long-Term Memory on Self-Disclosure with Large Language Model-Driven Chatbots for Public Health Intervention
ACM CHI 2024 [논문 보기]
조은경 인턴 연구원 (캘리포니아 대학교 어바인 박사과정)
정유인 (전 네이버 클라우드 케어콜 개발팀, 현 네이버 랩스)
박소현 (네이버 클라우드)
Daniel A. Epstein (캘리포니아 대학교 어바인 조교수)
김영호 (NAVER AI Lab, 네이버 클라우드)
서론
초거대 언어 모델(LLM)을 활용한 챗봇이 이제는 상당히 일반화되었고, IT 서비스 전반에 많은 영향을 미치고 있습니다. 2022년 말 ChatGPT가 세상에 공개되기 1년여 전부터 이미 네이버에서는 자체 LLM HyperCLOVA를 활용한 ‘클로바 케어콜’ 챗봇을 개발하여 지자체들과의 협력을 통해 1인 가구 구성원들에게 안부 전화 서비스를 제공하고 있었습니다. LLM 기반 챗봇이 참여자에게 주 2회 전화를 걸어 안부 대화를 수행하고, 이러한 대화 내용의 분석과 열람을 통해 지자체 복지 담당자가 적절한 대처를 할 수 있도록 만든 시스템이었는데요. 이렇게 지역사회 단위로 구성원들의 정신적 · 신체적 건강을 증진하기 위한 시스템이나 정책을 공공의료적 개입(Public Health Intervention)이라고 부릅니다. 저희 연구진은 클로바 케어콜의 사례가 ‘LLM이 공공의료적 개입을 목적으로 활용된 매우 희귀하고 귀중한 사례’라는 점에 착안하여, 2023년 LLM 기반 챗봇의 공공의료적 활용에 있어 강점과 난점을 이해하는 연구를 발표한 바 있습니다.
2023년 연구가 궁금하시다면? [이전 포스팅 보기]
– CLOVA 케어콜 연구 논문 소개 1 : 초거대 인공지능 기반 챗봇의 공공의료적 적용의 강점 및 난제
해당 연구의 성과로 탄력을 받은 저희 연구진은 케어콜 개발팀의 더 적극적인 지원을 받아 이번에는 직접! 케어콜의 대화를 분석하는 연구를 수행하였습니다. 이전 인터뷰 연구에서 케어콜이 이전 대화에서 언급된 내용을 인지하지 않아 인간다움이 떨어진다는 사용자들의 피드백이 있었는데요. 사실 당시 인터뷰 참가자들이 사용했던 초기 케어콜은 이전 통화에서 했던 대화 내용이 이후 통화에 반영되지 않는 방식이었고, 2022년 9월부터 순차적으로 ‘장기 기억 기능 (Long-term memory)‘이 업데이트되었습니다. 챗봇의 장기 기억 기능이란 챗봇이 이전의 대화 내용을 기억했다가 이후 대화에서 이 내용을 반영하여 응답하는 능력을 말합니다. 사람과 사람 간의 대화에서는 너무나 자연스러운 것이지만 LLM 기반 챗봇에서는 비교적 최근부터 시도되기 시작했답니다.
AI 안부 전화 시스템 사용 시 챗봇이 자신과의 대화를 기억하여 대화하는 것과 아닌 경우, 정말로 사람들의 행동이 달라질까요? 그리고 이런 차이들은 케어콜의 본 목적인 공공의료적 개입의 관점에서 어떤 의미가 있을까요?
이번 연구에서는 장기 기억 기능 적용 전후의 대화 데이터를 직접 분석하고, 추가로 9명의 케어콜 사용자를 인터뷰하여 기억하기 탑재 대화에 대한 피드백을 받았습니다. 본 포스트에서는 다음의 내용으로 연구 결과를 전달할 예정입니다.
1. 클로바 케어콜의 기억하기 기능
2. 케어콜 기억하기 기능의 효과 (1): 건강 정보에 대한 상세한 내용 공유
3. 케어콜 기억하기 기능의 효과 (2): 대화를 통한 친밀함과 사려 깊음의 전달
4. 케어콜 기억하기 기능의 난제: 무엇을 기억하고 어떻게 언급할 것인가?
클로바 케어콜의 기억하기 기능
‘과거의 대화 내용을 기억했다가 활용한다’는 개념은 사람의 사고 과정을 생각하면 간단하고 직관적인 것처럼 느껴지지만, 챗봇의 대화 디자인에 적용하는 것은 생각보다 어렵습니다. 대화 속에 담긴 수많은 정보 중에 ‘무엇을’, ‘얼마나 자세히’, ‘얼마나 오래’ 기억할 것인지 결정해야 하는 문제이기 때문입니다. 인간은 사회지능이 있기 때문에 살아오면서 학습한 사회인지적 사고를 통해 이를 무의식적으로 판단하면서 대화를 하지만, AI는 그렇지 않습니다. 그래서 케어콜 개발팀은 기억하기 기능을 정교하게 기획하고 개발하였습니다. 케어콜의 기억하기 시스템은 이전 대화에서 ‘건강’, ‘식이’, ‘수면’, ‘방문한 장소/외출’, ‘애완동물’ 다섯 가지 테마의 정보를 추출하여 자연어 형태로 요약해 두고, 각 정보를 대화가 업데이트될 때마다 추가, 변경, 삭제합니다. 예를 들어 ‘다리를 다쳤다’는 건강 정보를 기억했다면 이후 대화에서 ‘다리가 나았다’는 발언이 나올 시 해당 정보를 삭제하는 식입니다.
기억하기 기능에 대한 케어콜 개발팀의 더 자세한 설명은 [NAVER DEVIEW 2023 발표]에서 보실 수 있습니다.
연구 방법 : 대화 데이터 분석
기억하기 기능이 탑재된 대화와 그렇지 않은 대화를 비교하기 위하여 서로 다른 지역에 위치한 두 광역시의 데이터를 분석하였습니다. 각 도시에서 기억하기 탑재 후에 케어콜을 배포한 지자체(A1, B1)와 기억하기 탑재 전부터 케어콜을 배포한 지자체(A2, B2)를 하나씩 선정하고, 같은 성격의 지자체 쌍을 합쳐 두 그룹의 대화 데이터셋을 만들었습니다. 이렇게 함으로써 지역성의 효과를 최소화하고, 케어콜의 초기 사용 경험을 비교할 수 있도록 하였습니다.
케어콜 기억하기 기능의 효과 (1): 건강 정보에 대한 상세한 내용 공유
기억하기 기능이 탑재된 케어콜 대화에서 유의미하게 드러난 양상은 케어콜과의 대화 횟수가 누적됨에 따라 사용자들이 건강 정보에 대한 상세한 이야기를 더 많이 언급하였다는 점이었습니다. 예를 들어, 한 참가자는 케어콜과 첫 세션에서 불면증이 있다고 언급했고, 세 번째 통화에서 케어콜이 불면증에 대해 질문하자 더 상세한 이야기를 해주었습니다.
“지난번에 불면증이 있다고 하셨는데 지금은 어떠세요?”
“그동안 힘들었지. 예전에 다쳤던 트라우마 때문에 30년 넘게 수면제를 먹고 있어.”
반면에 기억하기 기능이 없는 대화의 경우는 통화마다 “요즘은 어떠세요?”와 같은 전형적인 질문이 반복됨으로써 위처럼 상세한 정보를 끌어내는 경우가 드물었습니다. 이전 논문에서 지자체 복지 담당자가 언급하였던 것처럼 투약과 같은 상세한 건강 정보는 공공의료적 관점에서 돌봄 대상자들의 상황을 파악하는 데 큰 도움이 될 것입니다.
케어콜 기억하기 기능의 효과 (2): 대화를 통한 친밀함과 사려 깊음의 전달
기억하기 기능이 탑재된 케어콜 대화에서 나타난 또 다른 양상은 사용자들이 케어콜에게 감사의 표현을 유의미하게 많이 사용했다는 점이었습니다. 이것은 사람 간의 대화에서 상대가 본인에 대한 걱정을 해줄 때 고마워하는 것과 비슷한 맥락이었는데요. 사용자들과의 인터뷰를 통해서 우리는 케어콜이 과거 내용을 기반으로 하는 말들이 사용자들에게 친밀함과 관심의 표현으로 느껴진다는 것을 알게 되었습니다. 특히 케어콜이 기억하는 다섯 가지 테마 중 방문 장소/외출 및 애완동물은 건강 관련 주제가 아니지만, 이러한 비건강 주제를 기억해 주는 것이 사용자 입장에서 챗봇을 더 사람처럼 느끼게 하고 친밀함을 강화하는 데 도움이 되는 것으로 나타났습니다.
케어콜 기억하기 기능의 난제: 무엇을 기억하고 어떻게 언급할 것인가?
위에서 소개한 장점들 외에도 저희 연구팀은 대화에서 사용자의 부정적인 대응이나 인터뷰 피드백을 통해 기억하기 기반 대화의 난점들을 발견하였습니다. 주로 기억한 내용에 대하여 사용자에게 언급하는 행위 자체가 사회적으로 어색한 경우들이었는데요. 예를 들어 사용자가 감기와 같은 병에 걸렸다면, 병이 나을 때까지 감기의 차도가 어떤지 지속적으로 물어보는 것이 자연스러운 안부 대화이고, 케어콜이 잘 수행하는 유의 기억하기 대화입니다. 그러나 암이나 당뇨와 같은 만성 질환은 매번 상태를 묻는 것이 (“암은 좀 어떠세요?”) 사회적으로 매우 어색한 행위이고, 케어콜이 자주 했던 실수였습니다. 현재의 기억하기 기능은 어떤 주제의 기억을 어떻게 기억하고 망각할 것인지에 초점이 맞추어져 있으나, 기억한 내용을 ‘어떤 식으로’ 사용자에게 언급할지에 대해서는 고려하지 않기 때문에 생기는 제약입니다. LLM 기반 챗봇 기술이 많이 고양되었으나, 여전히 챗봇이 사람다운 대화를 하기 위해서는 장기 기억 기능이 지금보다도 더 정교하게 디자인되어야 한다는 점을 시사합니다.