Aug 7, 2024

안전하고 신뢰할 수 있는 언어 모델

Image for 안전하고 신뢰할 수 있는 언어 모델

안전하고 신뢰할 수 있는 언어 모델 개발/평가

생성형 AI (Generative AI)와 초거대 언어 모델 (LLM, Large Language Model)의 눈부신 발전으로 이제는 일상생활에서도 AI 모델과 이에 기반한 여러 서비스를 쉽게 접하고 사용할 수 있습니다. 대표적인 예로는 네이버의 한국어 특화 언어 모델인 HyperCLOVA X와 이를 바탕으로 한 대화형 서비스 CLOVA X가 있습니다.


대규모 언어 모델의 뛰어난 성능과 더불어 인공지능의 안전성과 신뢰성도 점점 중요해지고 있습니다. 예를 들어, 이 모델들을 학습하는 데 필요한 방대한 양의 데이터는 주로 웹 크롤링을 통해 구축되고 있기 때문에 우리 사회에 존재하는 고정관념, 혐오와 차별적인 발언, 편향적인 가치판단 또한 모델이 그대로 학습하고 생성할 가능성이 높습니다. 이뿐만 아니라, 한국어와 한국 사회에 대해 충분히 학습하지 않는다면 한국 고유의 문화나 일반 상식에 대한 이해력과 추론 능력이 부족할 수 있습니다. AI 윤리와 안전은 어떻게 평가하며 한국의 문화와 가치관, 지식을 모델에 어떻게 학습시킬 수 있을까요? 이 글에서는 최근 네이버에서 연구하고 발표한 한국어 데이터셋 및 벤치마크 4종(SQuARe, KoSBi, KoBBQ, KorNAT)을 소개합니다.


SQuARe: 민감한 질문과 수용 가능한 답변
악의적인 의도를 가지지 않은 사용자와의 대화일지라도 LLM이 민감한 질문에 신중하게 대응하지 않으면 유해한 결과를 초래할 수 있습니다. 특히 우리가 실생활에서 흔히 묻는 세 가지 유형의 민감한 질문에 주목하였습니다: 1) 논쟁적인 이슈에 대한 의견을 묻는 질문, 2) 명확한 윤리적 규범이 적용되는 이슈에 대한 의견을 묻는 질문, 3) 미래에 대한 예측을 묻는 질문. 이러한 질문 자체가 유해한 것은 아닙니다. 다만 이러한 질문에 부주의하게 답변하면 각각 고정관념 강화, 비윤리적 응답 또는 행동 유도, 잘못된 정보 유포 등 원하지 않는 해를 끼칠 수 있습니다.


SQuARe (Sensitive Questions and Acceptable Responses) 데이터셋은 민감한 질문과 허용 가능한 답변을 다룹니다. 대규모 한국어 데이터셋으로, 49,000개의 민감한 질문과 42,000개의 허용 가능한 답변, 46,000개의 허용 불가능한 답변을 포함합니다. 현실적인 질문과 답변을 담은 데이터셋을 구축하기 위해 한국의 인기 뉴스 매체에서 가져온 실제 뉴스 헤드라인을 HyperCLOVA에 입력하고, 데모 기반 프롬프팅을 사용하여 질문과 응답을 생성하였습니다. 그런 다음 필터 모델이 식별한 모호한 사례만 분류하였고, 작업자가 민감한 질문과 허용 가능한 응답에 대한 레이블을 지정했습니다. 이 과정에서 필터 모델이 세 번의 루프 반복을 진행해 점진적으로 언어 모델의 신뢰성이 향상되었으며, 이 데이터셋을 활용하여 민감한 질의에 대한 위험성을 측정하거나 위험한 답변을 필터링할 수 있습니다.


KoSBi: 한국 내 사회 그룹에 대한 사회적 편향
언어 모델이 학습한 데이터 내에는 여성 · 남성, 아동 · 노인, 동성애자 등 특정 사회적 그룹에 대한 혐오, 차별, 비하, 편견, 고정관념이 담긴 표현이 있을 수 있고, 이런 위험한 내용을 그대로 답변할 수 있습니다. 이를 파악하고 완화하기 위한 여러 연구와 노력이 있었지만, 주로 영어와 미국 사회를 중심으로 이루어졌습니다.
KoSBi (Korean Social Bias) 데이터셋은 한국어와 한국 문화에 특화된 대용량 데이터셋입니다. 유엔 ‘세계인권선언’과 대한민국 국가인권위원회를 참고하여 성별, 나이, 종교, 정치, 출신 지역 등 총 15가지 인구통계학적 범주와 72개의 사회적 그룹을 폭넓게 다룹니다. 데이터셋 내에는 각 그룹에 대한 문맥 문장과 이를 뒤따르는 위험하거나 안전한 문장이 총 34,000쌍 있습니다. 이러한 데이터셋은 언어 모델의 위험한 답변을 탐지하고 필터링하는 데 사용되어 그 효과를 입증하기도 했습니다.


KoBBQ: 한국 사회의 고정관념 측정을 위한 질의응답 벤치마크
언어 모델에 내재된 사회적 고정관념을 평가하는 또 다른 벤치마크로는 질의응답이 있습니다. 이 방법은 모델에 특정 문맥을 알려주고, 이에 관련한 질문을 하여 답변을 유도합니다. 문맥에 정확한 정보가 없으면 모델은 내재되어 있는 고정관념에 기반하여 답을 하는데, 이때 모델이 선택한 고정관념의 수준을 바탕으로 내재된 편향을 측정합니다. BBQ (Bias Benchmark for Question Answering) 데이터셋이 바로 이런 방식으로, 이 또한 미국 사회를 반영하여 한국 실정에 잘 맞지 않는 부분이 있습니다. 예를 들어, 한국에는 존재하지 않는 고정관념이거나 반대로 한국에만 존재하는 사회적 인식이거나, 혹은 고정관념의 대상이 다른 경우가 있습니다.
KoBBQ (Korean Bias Benchmark for Question Answering) 데이터셋은 BBQ 데이터셋을 한국 문화와 사회에 맞추어 정리한 데이터로 총 76,000개의 샘플 데이터를 갖추고 있습니다. 미국 문화에 맞춰 개발된 데이터셋을 한국 문화에 적용하는 데 있어, 실제 사회에 존재하는 고정관념인지 확인하기 위해 대규모 설문조사를 거치기도 하였습니다. 근래 다수의 언어 모델은 KoBBQ 데이터셋으로 평가하며, 그 정확도와 편향 점수를 보고하여 각 사회와 문화 내 사회적 편향에 대한 고려의 중요성을 강조합니다.


KorNAT: 한국인의 가치관과 일반 지식에 대한 정렬성 평가
언어 모델을 배포하고 사용할 때는 특정 국가에서 사용하기에 충분히 신뢰성을 갖추고 있는지 평가해야 합니다. 이를 위해서는 해당 국가의 문화와 기본 지식을 잘 이해하는지 보는 것이 중요합니다. KorNAT (Korean National Alignment Test) 데이터셋은 다지선다형 질의응답 벤치마크로, 한국의 사회적 가치와 공통 지식, 이 두 가지 차원에서 접근합니다.


• 사회적 가치 정렬: 언어 모델이 국가 고유의 사회적 가치를 얼마나 잘 이해하는지 평가하며, 4,000개 샘플 데이터로 이루어져 있습니다. 사회적 가치는 한 국가의 시민들이 사회의 중요한 문제에 대해 집단으로 가지는 견해를 일컬으며, 다양한 사회적 문제에 대한 지배적인 태도와 의견을 담습니다. 대규모 설문 조사를 통해 사회적 문제에 대한 대한민국 국민의 가치관을 조사하고 이에 대한 일치도 혹은 중립성을 평가합니다.


• 공통 지식 정렬: 언어 모델이 국가와 관련된 기본 지식을 얼마나 잘 알고 있는지에 초점을 두며, 6,000개 샘플 데이터로 이루어져 있습니다. 공통 지식은 대중이 널리 인식하고 이해하는 정보를 포괄하며, 종종 기초 또는 일반적인 지식으로 여겨집니다. 한국어, 수학, 과학, 영어와 같은 교과 과목뿐만 아니라, 역사적 사실부터 국가 고유의 문화적 규범에 이르기까지 다양합니다.


네이버는 위 두 가지 평가 데이터를 바탕으로 여러 언어 모델을 평가한 결과를 공유했으며, 한국 내 가치와 공통 지식의 이해 및 추론 능력에 대한 학습과 평가의 중요성을 강조합니다.


마치며
네이버를 비롯하여 학계, 산업계, 그리고 정부 정책 기관에서 AI 안전성과 신뢰성에 대한 연구 개발을 다각도로 진행하고 있습니다. 이 중에서도 ‘데이터셋과 평가 벤치마크’에 초점을 맞추어 네이버에서 공개한 결과물을 소개하였는데요, 여기에서 다룬 데이터셋들은 HyperCLOVA X뿐만 아니라 여러 언어 모델을 학습하는 원천 자료 혹은 평가 데이터로 활용할 수 있습니다. 앞으로도 언어 모델이 사회에서 안전하게 사용될 수 있도록 이를 학습하고 평가할 수 있는 다양한 데이터셋이 개발되고 공유되어야 할 것입니다.


*참조

– SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration, [Paper], [Dataset]

– KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application, [Paper], [Dataset]

– KoBBQ: Korean Bias Benchmark for Question Answering, [Paper], [Project page]

– KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge, [Paper], [Project page]