업무 중 AI에 물어본 영어가 나만의 퀴즈가 된다면? LingoQ: 맞춤형 영어 퀴즈 앱 연구

CHI 2026 Paper

김영호 리더 (HCI Research, NAVER AI Lab)

이번 글에서는 오는 4월 스페인 바르셀로나에서 개최되는 인간–컴퓨터 상호작용(HCI) 분야 최고 권위 학술대회인 ACM CHI 2026에서 발표된 네이버클라우드의 논문을 소개합니다.

LingoQ: Bridging the Gap between EFL Learning and Work through AI-Generated Work-Related Quizzes

양연선 (DGIST / NAVER AI Lab 인턴)

이상원 (Virginia Tech / NAVER AI Lab 방문 연구원)

송진영 (연세대학교)

윤상두 (NAVER AI Lab)

김영호 (NAVER AI Lab)

연구 웹페이지

영어로 일하는데 영어 실력은 왜 그대로일까?

영문 이메일 초안을 ChatGPT에 붙여 넣고 “더 자연스럽게 고쳐줘”라고 요청한 뒤, 수정된 문장을 그대로 복사해서 보내는 일. 글로벌 환경에서 일하는 직장인이라면 꽤 익숙한 장면일 겁니다. 매일 영어로 문서를 읽고 메일을 쓰는데도 이상하게 실력은 제자리처럼 느껴집니다.

비영어권 지식 노동자에게 영어 숙련도는 업무 생산성과 직결됩니다. 원어민에 비해 같은 자료를 읽더라도 더 오래 걸리고, 같은 이메일을 작성하더라도 표현 하나를 고치기 위해 시간을 더 쓰게 되죠. 이 격차를 줄이기 위해 많은 사람이 Duolingo 같은 영어 학습 앱을 사용하지만, 대부분의 콘텐츠는 여행이나 일상 회화, 일반 비즈니스 표현 중심입니다. 이 때문에 실제 업무에서 마주치는 산업별 전문 용어, 보고서 표현, 실무형 문장과는 거리감이 있습니다.

문제는 ‘학습 부족’이 아니라 ‘복습 지속성’

그렇다면 업무 중 접한 영어 표현을 따로 정리해서 복습하면 되지 않을까요? 실제로 일부 직장인들은 모르는 단어를 Notion이나 Google Docs에 기록하고, Anki 같은 플래시카드 앱으로 퀴즈를 만들어 복습하기도 합니다. 문제는 ‘좋은 방법’과 ‘지속 가능한 방법’이 다르다는 것이죠.

국내 비원어민 지식 노동자 49명을 대상으로 벌인 사전 설문에 따르면, 이러한 수동적인 복습 루틴을 꾸준히 유지하기 어렵다는 반응이 대다수였습니다. 설문 응답자의 절반 이상(49명 중 33명)이 업무를 위해 영어 공부가 필요하다고 느꼈지만, 실제로 영어 공부를 따로 하고 있는 사람은 절반도 되지 않았습니다. 영어 강의나 Duolingo 등의 학습 앱을 병행하더라도 ‘실제 업무와 동떨어진 콘텐츠’ 때문에 학습 동기가 떨어진다고 밝혔습니다.

LingoQ: AI와 나눈 영어 질문을 학습 콘텐츠로 바꾸기

이 글을 읽는 분 중 상당수는 업무 중 영어 표현을 해석하고 내용을 작성하기 위해 ChatGPT나 Gemini 등 LLM 기반 AI에 질문하거나 첨삭을 받아본 경험이 있을 것입니다. 사전 설문에서도 무려 응답자의 94%가 업무상 영어를 위해 LLM 기반 AI를 활용하고 있다고 답했습니다. 주로 모르는 어휘나 구문의 뜻을 찾아보고, 문장이나 문단을 영어 또는 한국어로 번역하며, 작성한 영문 초고를 교정하는 데 AI를 활용하고 있었습니다. 그렇다면 “AI와 나누었던 영어 관련 질문이나 대화를 자동으로 퀴즈로 만들어서 복습할 수 있다면, 실제 영어 실력 향상에도 도움이 되지 않을까?” 이러한 문제의식에서 우리 연구팀은 LingoQ라는 AI 애플리케이션 시스템을 만들기로 했습니다.

LingoQ는 ‘업무 중 AI와 영어 관련 질의응답 → 퀴즈 자동 생성 → 모바일 복습’이라는 흐름을 통해 업무 중 실제 고민했던 내용을 곧바로 개인화된 학습 자산으로 바꿉니다. 이러한 접근 방법의 핵심은 기존 영어 학습 앱처럼 모두에게 동일한 콘텐츠를 제공하는 것이 아니라, 사용자가 실제 업무에서 마주쳤던 표현이 학습 콘텐츠로 사용된다는 점입니다. 내가 실제로 궁금했던 단어, 번역이 필요했던 문장, 교정받았던 이메일 표현을 이후에 복습할 수 있도록 퀴즈로 제공하기 때문에 실제 업무의 연장선상에서 자연스럽게 영어를 학습할 수 있습니다.

▲ LingoQ 시스템

A: 업무 관련 영어 질의를 수행하는 데스크톱 AI 어시스턴트 LingoQuery

B: 사용자와 AI 간의 영어 대화를 바탕으로 TOEIC 문제를 생성하는 자동화 파이프라인

C: 생성된 문제를 사용자가 스마트폰에서 풀어볼 수 있도록 해주는 모바일 앱 LingoQuiz

LingoQ는 세 가지 요소로 구성됩니다.

LingoQuery: 업무상 영어 질문을 자유롭게 할 수 있는 데스크톱 AI 어시스턴트
퀴즈 생성 파이프라인: LingoQuery의 영어 대화를 기반으로 TOEIC 스타일의 퀴즈를 자동으로 생성하는 백그라운드 시스템
LingoQuiz: 생성된 퀴즈를 자투리 시간에 스마트폰으로 풀 수 있는 모바일 앱

1. LingoQuery: 업무용 영어에 특화된 데스크톱 AI 어시스턴트

LingoQuery는 ChatGPT나 Gemini 같은 일반적인 데스크톱 AI 어시스턴트와 비슷한 인터페이스를 갖추면서도 업무 영어에 특화된 몇 가지 요소가 더해져 있습니다.

가장 큰 특징은 직장인들이 실제 일하면서 가장 자주 사용하는 세 가지 프롬프트 유형인 단어/구문 뜻 찾기(Look up), 번역(Translate), 교정(Proofread)을 버튼 하나로 선택할 수 있다는 점입니다. 매번 프롬프트를 직접 입력할 필요 없이, 텍스트를 복사한 뒤 원하는 기능을 골라서 바로 전송할 수 있습니다.

각 기능마다 응답 인터페이스도 다릅니다. 번역 결과는 원문과 번역문을 나란히 보여주어 빠르게 비교할 수 있도록 했고, 교정 결과는 수정된 부분이 변경 내용 추적 스타일로 강조되어 어떤 표현이 어떻게 개선되었는지 한눈에 확인할 수 있습니다.

또한 외부 문서를 읽다가 특정 텍스트의 뜻을 바로 찾아보거나 번역하고 싶으면 웹 브라우저나 앱에서 텍스트를 선택한 뒤 단축키만 누르면 그 내용이 곧바로 LingoQuery로 전송되도록 했습니다. 이때 화면 스크린샷도 함께 캡처되어 AI가 사용자의 업무맥락을보다 정확히 이해할 수 있으며, 이후 퀴즈를 생성하는 데에도 활용됩니다. 스크린샷이 있으면 보고서 작성, 이메일 검토, 특정 산업 문서 해석 등 단순히 텍스트 자체만으로는 파악하기 어려운 상황적 배경까지 함께 반영할 수 있습니다. 물론 민감한 정보가 포함된 경우, 전송하기 전에 스크린샷을 제외할 수도 있습니다.

▲ LingoQuery의 인터페이스 구성요소

2. 퀴즈 생성 파이프라인: AI 대화를 기반으로 ‘개인화된 영어 퀴즈’ 자동 생성

이렇게 축적된 대화 데이터는 퀴즈 생성 파이프라인으로 이어집니다. 이 파이프라인은 LingoQuery에 저장된 질문·응답 쌍 중 영어 관련 질의응답을 선별한 뒤, 대화마다 TOEIC 형식의 빈칸 채우기 객관식 문제 두 개를 자동 생성합니다. 여기서 중요한 점은 단어나 표현 자체만 문제로 만드는 것이 아니라, 스크린샷에서 추출한 실제 업무 맥락까지 문제 지문에 반영한다는 것입니다. 이렇게 생성되는 문제는 사전식 암기 문제가 아니라 사용자가 실제로 업무 중 마주했던 상황과 연결된 개인맞춤형 문제로 발전합니다.

문제의 품질 역시 자동 검증 과정을 거칩니다. 생성된 문항은 AI를 통해 정답 가능성과 난이도 적절성이라는 두 가지 기준으로 평가되며, 문제가 하나의 명확한 정답을 갖는지, 지나치게 쉬워 학습 효과가 떨어지지는 않는지 점검합니다. 기준을 충족하지 못할 경우, 최대 두 차례까지 자동 수정이 이루어집니다.

▲ LingoQ의 퀴즈 생성 파이프라인

유저 스터디 이후 TOEIC 문제 출제 경험이 있는 영어교육 전문가들이 실제 생성 문항을 검수한 결과, 전반적으로 TOEIC·TOEFL 빈칸 채우기 문제와 유사한 수준이라는 평가를 받았습니다. 특히 특정 산업이나 직무 맥락이 반영된 도메인 특화 지식을 요구하는 문제는 해당 분야 종사자에게 더욱 실질적인 학습 효과를 줄 수 있다는 해석도 있었습니다.

▲ 실험 참가자들에게 실제로 출제된 영어 문제

3. LingoQuiz: 자투리 시간을 실력으로 바꾸는 모바일 복습 앱

LingoQuiz는 이렇게 생성된 문제를 사용자가 일상 속 자투리 시간에 복습할 수 있도록 돕는 모바일 앱으로, 매일 10개의 문항으로 구성된 문제 풀이 세트를 제공합니다. 10문항 중 7문항은 최근 새롭게 생성된 문제, 나머지 3문항은 이전에 틀렸거나 오랫동안 다시 풀지 않은 문제들로 구성됩니다. 이렇게 문제를 섞어줌으로써 새로운 학습과 반복 복습이 자연스럽게 균형을 이루도록 했습니다. 또한 각 문제를 풀 때마다 AI 해설이 함께 제공되어 왜 이 선택지가 맞거나 틀리는지 바로 확인할 수 있습니다. 10문제를 모두 푼 뒤에는 이번 세션에서 틀렸던 문제들이 반복해서 다시 등장하며, 모든 문제의 정답을 맞혀야만 세션이 종료됩니다.

▲ LingoQuiz의 주요 화면 구성

유저 스터디: LingoQ는 실제 업무형 영어 학습에 얼마나 효과적이었을까?

LingoQ와 함께 하는 영어 학습이 실제로 얼마나 효과적인지 알아보기 위해 비원어민 지식 노동자 28명을 대상으로 3주간의 유저 스터디를 진행했습니다. 참가자는 연구원, 소프트웨어 엔지니어, 의료 종사자, 마케터 등 다양한 직군으로 구성되었으며, 스스로 평가한 영어 수준 역시 CEFR A1(입문)부터 C1(고급)까지 고르게 분포되어 있었습니다. 참가자들은 3주 동안 영어 관련 작업에서는 기존에 사용하던 ChatGPT 등의 AI 대신 LingoQuery를 사용하고, LingoQuiz로 자유롭게 문제를 풀었습니다. 이 기간 전후로 TOEIC 기출문제 기반 영어 숙련도 테스트와 영어 자기효능감 설문(QESE)을 실시하여 변화를 측정했습니다.

꾸준한 앱 사용과 문제 풀이

먼저 눈에 띄는 점은 사용 지속성이었습니다. 참가자들은 대부분의 평일에 LingoQuery를 사용했으며, 1인당 평균 약 120건의 영어 관련 질문을 남겼습니다. LingoQuiz 역시 하루 평균 1회 문제 풀이 세션을 완료했는데, 이는 영어 공부를 매일 꾸준히 하였다는 것을 보여줍니다. 특히 사용 시간은 밤 10시 전후에 집중되는 경향을 보였는데, 퇴근 이후나 잠들기 전 자투리 시간을 활용한 학습 패턴이 자연스럽게 자리 잡은 것으로 해석됩니다.

기존의 영어 학습 방식과 비교했을 때도 지속 가능성 측면에서 차이가 뚜렷했는데요. LingoQ 사용 기간 전후로 기존 방법의 지속 가능성과 LingoQ 활용 공부의 지속 가능성에 대해 점수를 매기도록 해서 비교한 결과, LingoQ가 이전 방법보다 유의미하게 높은 평가를 받았습니다(𝑝 < 0.001).

“퀴즈 자체가 부담스럽지 않고, 출퇴근이나 잠들기 전에 자연스럽게 루틴으로 자리 잡았어요.”

– 3번 참가자

영어 자기효능감의 향상

3주간의 사용 이후 가장 뚜렷하게 나타난 변화는 영어 자기효능감(QESE)이었습니다. 전체 참가자의 QESE 점수는 평균 9.5% 상승했으며(𝑝 < 0.001), 특히 읽기와 쓰기 하위 척도 모두에서 유의미하게 향상했습니다. 참가자들은 실제 업무 문맥에서 반복적으로 등장했던 표현을 다시 학습하면서, 영어를 대할 때의 심리적 부담이 줄고 자신감이 높아졌다고 평가했습니다.

“가장 크게 달라진 건 자신감이에요. 자주 틀리던 부분을 반복해서 짚고 나니까, 어느 순간 복잡한 문장도 훨씬 편하게 읽히더라고요.”
– 15번 참가자

초급 실력자들의 영어 숙련도 향상

영어 숙련도 점수에서는 CEFR A 수준의 입문·초급 참가자들이 평균 4점(30점 만점) 상승하며 유의미한 향상을 보였습니다(𝑝 = 0.01). 이는 실제 업무 중 반복적으로 마주치는 표현을 기반으로 한 학습이 초급 사용자에게 특히 효과적일 수 있음을 시사합니다. 중급(CEFR B) 참가자들은 전체적인 점수 변화는 없었지만, LingoQuery를 더 자주 사용한 참가자일수록 학습 향상 폭이 더 커지는 경향이 확인되었습니다(𝑝 = .01). 반면 고급(CEFR C) 참가자들에게는 뚜렷한 점수 변화가 나타나지 않았는데, 이는 영어 숙련자들이 LingoQuery를 영어를 몰라서가 아니라 업무 효율을 위해 사용하는 경우가 많아, 생성된 퀴즈가 이미 아는 내용을 다루었기 때문으로 해석됩니다.

업무 맥락 기반 문제 풀이의 강점

실험 종료 후 참가자들은 LingoQ의 가장 큰 강점으로 ‘업무 관련성’을 꼽았습니다. 퀴즈의 업무 관련성(relevance)과 실제 업무 도움도(helpfulness) 모두 기존의 영어 학습 방식보다 유의미하게 높은 평가를 받았습니다(𝑝 < 0.001).

기존의 영어 학습 앱이 일반적인 비즈니스 표현이나 범용 문장을 제공했다면, LingoQ는 사용자가 실제 업무 중 읽었던 문서와 이메일에 나타난 표현을 기반으로 문제를 만들기 때문에 표현의 뜻뿐 아니라 어떤 상황에서 어떻게 쓰이는지까지 함께 체득할 수 있었습니다.

“예전엔 Gemini를 써서 단어 공부했는데, 항상 뭘 공부할지 직접 알려줘야 했거든요. LingoQuiz는 그 과정 자체가 없어서 좋았어요.”

– 15번 참가자

LLM에 대한 의존을 공부의 기회로 전환하기

LingoQ 연구가 보여준 흥미로운 점 중 하나는, LLM에 대한 의존이 반드시 부정적인 결과로만 이어지지는 않는다는 점입니다. 최근 여러 연구에서 생성형 AI 도구가 지식 노동자의 비판적 사고를 약화하거나, 스스로 사고하고 문제를 해결하는 능력을 줄일 수 있다는 우려를 제기했습니다. AI가 교정해 준 문장을 이해하지 않고 그대로 복사해서 사용하는 습관이 실제 영어 실력을 퇴보시킬 수 있다는 걱정도 타당합니다.

그러나 LingoQ는 이 문제를 다른 시각으로 바라봅니다. LingoQ는 LLM에 대한 의존을 사용자가 모르는 것과 궁금해하는 것을 담고 있는 정보라 가정하고, 이 상호작용의 히스토리를 학습 자료로 재활용합니다. 다시 말해, 사용자가 AI에 질문한 표현과 문장은 곧 개인이 학습해야 하는 영역이 어디인지 가장 명확하게 드러난 지점일 수 있다는 것입니다. 실제로 유저 스터디에서 일부 참가자들은 LingoQuery를 사용하면서 ‘이 질문이 나중에 퀴즈로 나올 수 있다’라는 인식이 생기자, 이전에는 그냥 복사 붙여넣기로 넘기던 표현들을 더 주의 깊게 들여다보게 되었다고 밝혔습니다.

“ChatGPT 대신 LingoQuery를 쓰다 보니, 그냥 번역만 하고 넘어갔을 문장의 단어 하나하나를 더 신경 쓰게 됐어요.”

– 25번 참가자

퇴근했는데 업무 용어를 공부해야 한다? 일과 삶의 경계 지키기

LingoQ의 강점은 업무상 사용하던 영어 표현을 이후에 복습할 수 있다는 점이지만, 다른 관점에서 바라보면 퇴근 후에도 업무상 영어를 공부하도록 만든다는 의미가 되기도 합니다. 실제로 한 참가자는 “가끔은 일에서 떠나고 싶은데, 퇴근 후에 같은 자료를 복습하고 있으면 업무가 연장되는 느낌이 들었다“라고 말했습니다. 일과 삶의 경계를 명확히 유지하는 것이 정신 건강에 중요하다는 연구를 고려하면, 이 불편함을 줄여주는 것 또한 중요한 미래 연구 소재입니다. 앞으로는 학습 콘텐츠의 맥락은 유지하되, 업무를 연상시키는 표현이나 소재는 일정 시간 이후 가려주거나 바꿔주는 방식도 고려해 볼 수 있을 것입니다.

마치며

LingoQ는 생성형 AI 시대에 사람들이 이미 일상적으로 사용하고 있는 LLM 상호작용을 어떻게 더 주체적이고 이로운 방향으로 전환할 수 있을지에 대한 하나의 실험이기도 합니다. AI를 더 많이 쓰는 것이 곧 실력 저하로 이어질지 혹은 더 나은 학습 기회가 될지는 결국 기술 자체보다 그 사용 경험을 어떻게 설계하느냐에 달려 있을지도 모릅니다.

삶의 현장에서 주체성 있게 AI를 소비하고 이롭게 활용하는 연구는 앞으로도 네이버에서 계속됩니다. 본 연구에 대한 자세한 내용은 논문 웹페이지를 참고해 주세요.

LingoQ의 실제 사용 모습은 아래 데모 영상에서 확인해 볼 수 있습니다.