팀네이버 AI Safety를 위한 노력

AI 기술이 혁신을 거듭하며 사람들의 삶에 미치는 영향은 실로 놀랍습니다. 앞으로 AI 기술의 무궁무진한 가능성이 기대되는 한편, 이 신기술을 윤리적으로 안전하게 활용하는 것 또한 우리의 중요한 과제일 것입니다. 네이버의 AI 기술은 사용자에게 새로운 경험을 선보이는 도전을 멈추지 않음으로써 다양한 기회와 가능성을 열어 왔습니다. 하지만 세상의 다른 모든 것처럼 완벽할 수 없다는 점을 인식하고, 안전한 AI 활용을 위한 기술적 · 정책적 노력을 게을리하지 않고 있습니다.
네이버는 선도적으로 ‘네이버 AI 윤리 준칙’을 소개한 바 있습니다. 이는 AI 개발과 이용에 있어 가장 중요한 ‘사람을 위한 AI’, 즉 인간 중심의 가치를 부여하며, 네이버 AI 윤리 자문 프로세스를 제정해 네이버의 모든 구성원이 AI 윤리에 대해 구체적인 논의를 이뤄갈 수 있도록 하고 있습니다.
세계적으로 AI 기술의 잠재력을 최대화하고 잠재적 위협을 최소화하는 균형 잡힌 시각이 필요한 지금, AI Safety를 바라보는 시각과 팀네이버의 AI Safety를 향한 노력에 대해 좀 더 자세히 알아볼 필요가 있습니다.

AI Safety의 위협 요인과 윤리적 사용 강화
여러분은 AI Safety라고 하면 어떤 것이 떠오르시나요? ‘매트릭스’나 ‘아이언맨’의 자비스로 대변되는 영화 속 스토리를 떠올릴 수 있습니다. 더 오래전, 인간보다 우월한 지능을 가진 존재에 대한 우려 섞인 스토리도 있었습니다. 그리고, 최근 초거대 생성 AI 기술과 함께 좀 더 현실적이고 구체적인 위협 요인들에 대한 논의가 시작되었습니다.
작년 11월, 28개국 정부 책임자, 주요 AI 기업 CEO, 학계, 연구소, AI 관련 NGO 수장들이 한 자리에 모여 AI 안전에 대해 토론하는 AI 안전 정상회의(AI Safety Summit)가 개최되었습니다. 인공지능 시대에 AI 안전을 위협하는 요소로 무엇을 꼽았는지, AI를 윤리적으로 사용하기 위한 방안은 무엇인지 함께 살펴보도록 하겠습니다.

*AI Safety를 위협하는 유형
1. 기술적 한계
그 첫 번째 유형은, 잘못된 정보를 학습하고 답변하는 할루시네이션이나 사회 민감 이슈 혹은 편향된 이슈 또는 혐오 표현을 가감 없이 학습하고 이를 확산시키는 일, 또는 저작권을 명시하지 않고 사용하는 사례를 들 수 있습니다. 이는 기술적 한계의 유형으로, 정확한 데이터를 학습시키고 학습 콘텐츠에 대해 세밀한 기준을 수립해야 하며, 꾸준한 연구 개발이 뒷받침되어야 합니다.

2. 악의적 의도로 활용
두 번째 유형은, 사람에 의해 악의적 의도로 활용되나 이를 미리 규제하지 못하는 경우 발생합니다. 가짜 뉴스를 확산시키거나 보이스 피싱으로 피해를 주는 등의 사례를 말합니다. 악의적인 행위자가 AI를 악용하지 못하도록 적절하게 규제하면서 정책 또는 가이드라인을 입안하고, 동시에 사용자가 안전하게 사용하도록 교육함으로써 피해를 줄여나갈 수 있습니다.

3. 통제 불가한 문제

마지막 유형은 오픈 소스를 통해 제공되는 프런티어 AI 기술의 무분별한 활용에 대해 모니터링이 불가하고, 따라서 사전 제재가 어렵다는 데서 기인합니다. 또한 AI가 똑똑해짐에 따라 일상생활 속 의사결정을 AI에 과도하게 위임하는 습관도 인간의 통제력 상실로 이어질 수 있습니다.

팀네이버의 HyperCLOVA X 역시 세계 세 번째 초거대 생성형 AI 모델로, 지난 5년간 300여 편이 넘는 글로벌 AI 선행 연구를 수행했으며, 세계 최고 AI 학회에서 여러 차례 의미 있는 논문 연구 성과를 이뤄낸 대표적인 프런티어 AI 모델입니다. 팀네이버 역시 2023년 AI 안전 정상회의에 참여해 글로벌 AI 기업으로 AI Safety의 중요성에 대해 한목소리를 냈습니다. 실제로 팀네이버는 AI Safety를 위해 이런 노력을 하고 있습니다.

*AI Safety를 향한 팀네이버의 노력
팀네이버는 지난 1월 네이버 Future AI 센터를 신설하였습니다. Future AI 센터는 AI 안전성 연구를 전담하며, 글로벌 연구자들과 협력하여 책임 있는 AI 기술을 지속적으로 연구하고 네이버의 신뢰 가능한 AI 정책을 수립합니다. AI 안전성에 기반한 좋은 데이터셋으로 AI 모델의 기술적 역량을 강화하는 역할과 함께 체계적인 검증과 대응 프로세스 운영에도 많은 노력을 기울이고 있습니다.

1. 레드팀(모의 공격) 운영
팀네이버의 AI Safety는 단순 위험 단어 필터링이나 민감 정보 정제, 말투 · 뉘앙스 등의 세밀한 조정뿐 아니라, 악의적인 이용자들의 공격에 AI 모델이 넘어가지 않도록 미리 레드팀(모의 공격) 운영을 통해 방어 역량을 꾸준히 높이고 있습니다. 레드팀의 역할은 HyperCLOVA X가 다양한 공격 시나리오에 얼마나 잘 대처하는지 확인하기 위해 의도적으로 테스트를 진행하고, 이 과정에서 예상하지 못한 결과, 예를 들어 편향적인 발언이나, 부정확한 정보를 생성하거나, 사용자의 질문에 부적절하게 반응하는 등의 오류가 있는지 확인합니다. 팀네이버의 AI Safety 가이드는 혐오, 폭력, 고정관념, 잘못된 정보, 저작권 침해 등 14가지 기준의 정기 모델 평가를 통해 안전성을 향상해 나가고 있습니다.

※ AI Safety 기준 예시
* 레드팀: 기술 또는 서비스의 취약점을 발견하고 검증하기 위해 의도적으로 공격하는 역할을 부여받은 팀

2. 공정한 선거를 위한 노력
요즘 AI 안전성 관련 이슈로 가짜뉴스를 빼놓을 수 없습니다. 특히나 올해는 전 세계적으로 많은 선거가 있어 AI가 선거에 악용되지 않도록 자율적으로 규제하자는데 한목소리를 내고 있습니다. 팀네이버의 AI Safety 역시 선거 관련 잘못된 정보나 특정 인물에 대한 근거 없는 비방이 포함되지 않도록 노력하고 있습니다. 선거 관련 콘텐츠 업로드 시 생성형 AI로 만들었다는 사실 표기뿐 아니라 사용자 주의를 안내하고 있으며, 디지털 콘텐츠의 출처를 추적할 수 있는 글로벌 기술 표준(C2PA)을 채택하고자 추진 중입니다. 더불어, 비가시성 워터마크나 라벨을 부착하여 생성형 AI 콘텐츠를 감지하는 기술을 확보하기 위한 연구 개발에도 박차를 가하고 있습니다.

3. AI 윤리 생태계 조성을 위한 다양한 시도
팀네이버는 AI 윤리 문제에 선제적으로 대응하고자 AI Safety 고도화 분야의 선행 연구를 지속적으로 수행하고 있습니다. 연구에서 제안하는 소스 코드와 데이터셋을 세상에 공개하여 AI를 사용하는 주체들이 실제로 활용할 수 있도록 하는 동시에, AI에 과도하게 의존하여 의사 결정의 통제력을 상실하지 않도록 안전한 AI 기술 활용 방안에 대한 실질적 교육도 이어 나가는 등 보다 직접적인 윤리 생태계 조성에 기여하고 있습니다. 또한 클로바 케어콜 서비스를 통해 AI가 사회 · 공중보건 분야에서 실질적인 기여를 할 수 있다는 점도 확인하였습니다.

팀네이버의 고민을 바탕으로 국제사회와 호흡을 맞출 것
팀네이버의 AI Safety는 IT 분야에 국한되지 않은 근본적인 윤리에 대해 고민합니다. AI Safety에 대해서 다수의 연구자와 기획자가 논의하지만, 실제 기준을 적용하고 발전시켜 나가는 데에는 각자 세세한 기준의 차이를 보이기 마련입니다. 때문에 서로 검증하고 또 다양한 목소리를 들으며 공감대를 형성해 나가야 합니다. AI Safety를 향한 네이버의 고민과 노력이 대한민국에 적합한 HyperCLOVA X를 구현하는 것뿐 아니라, UN, EU, 영국, 미국, 캐나다, 중동 등 주요 국가와 함께 글로벌 AI Safety를 정립해 나가는 데 기여할 것입니다.