CLOVA Speech

지금 클로바의 새로운 음성 인식 엔진 NEST를 체험해보세요
뉴스 샘플 음성file delete YTN 뉴스 음성을 NEST 엔진을 통해 실제 인식한 결과입니다. 텍스트 변환 결과는 오인식을 포함할 수 있습니다.
NEST 엔진의 음성인식 기술을 확인해보세요
00:0001:56
기업이나 단체에서 클로바 스피치 사용을 원하시는 경우 제휴 제안으로 문의 바랍니다.
눈으로 보며 듣는 음성 기록

CLOVA Note beta

CLOVA Speech의 음성 인식 기술을 일상에서 만나보세요. 클로바노트 이용하기

네이버 클로바의 음성 인식 기술, CLOVA Speech

CLOVA는 한국어 및 일본어에 대해 세계 최고 수준의 음성 인식 기술을 갖추고
네이버와 라인의 다양한 음성 기반 서비스에 높은 인식률의 음성 인식 엔진을 제공하고 있습니다.
  • 음성 명령 인식 네이버와 라인의 방대한 데이터를 기반으로
    학습한 클로바 엔진은 다양하고 새로운
    음성 명령에 대해서 정확한 인식률을 제공합니다.
    자세히 보기
  • 딕테이션 (NEST) NEST 엔진은 End-to-End 방식으로 학습하여
    정형화되지 않은 길고 복잡한 문장에 대해서도
    정확한 음성 인식을 제공합니다.
    자세히 보기
  • 화자 인식 클로바의 화자 인식 기술은 짧은 발화만으로도
    등록된 화자 여부를 빠르고 정확하게 판별하여
    화자 인증 및 식별에 활용 가능합니다.
    자세히 보기

음성 어시스턴트를 위한
음성 명령 인식 기술

  • 정확한 호출어 인식 헤이 클로바, 안녕 네이버와 같은 호출어 발화에 대해 높은 정확도로 대응하고 있습니다.
  • 소음에 강한 음성 모델 주변 소음을 제거하며 어시스턴트 스스로 내는 소리가 다시 입력되지 않도록 하는 AEC를 제공합니다.
  • 특정 도메인 사전 학습 새로운 음성 명령어 세트를 사전에 학습하여 서비스 출시에 필요한 인식률을 사전에 향상할 수 있습니다.
  • 다국어 음성 인식 지원 세계 최고 수준의 한국어/일본어 모델과 상용화 가능한 영어, 중국어, 프랑스어, 스페인어 모델을 제공합니다.
  • 실시간 스트리밍 프로토콜 응답시간을 최소화하는 인터랙티브한 응용 프로그램을 제작할 수 있습니다.
  • 인식 후 처리 오인식을 줄이기 위해 음성 인식 결과를 다듬어 보정하는 후처리를 수행합니다.
서비스 적용 사례
  • 클로바 인공지능 스피커 다양한 음성 명령을 완벽한 정확도로 대응하며 명령어 영역을 확장하고 있습니다.
  • 네이버 앱 모바일 환경에 특화된 음성 검색 및 음성 명령을 정확하게 인식합니다.
  • 네이버 지도 도로명 주소, 식당 이름과 같이 지도 서비스에 특화된 음성 인식 모델을 제공합니다.
  • AiCall 예약을 위한 음성 어시스턴트 AiCall에 탑재되어 저품질 통화 음성을 정확하게 인식합니다.

정형화되지 않은 음성을 인식하는
NEST 기술

해당 뉴스 영상의 자막은 NEST 엔진을 통해 자동 생성 되었습니다.
  • 정확한 장문 딕테이션 End-to-end 방식으로 정형화되지 않은 긴 문장 인식에 특화된 음성 인식 엔진을 제공합니다.
  • 데이터 학습 없이 빠른 대응 해당 도메인의 음성 데이터에 대한 사전 학습이 없는 기본 모델만으로도 정확한 인식 결과를 보장합니다.
  • 미디어에 강한 모델 방송 영상이나 오디오 클립의 대화 음성을 텍스트로 변환하고, 자동으로 자막을 생성할 수 있습니다.
  • 스트리밍 또는 배치 처리 미리 녹화된 파일을 처리하는 방식이 가능하며, 스트리밍 프로토콜을 이용한 실시간 딕테이션을 준비중입니다.
  • 도메인 특화 지원 학습을 하지 않아도 높은 정확도를 보이나 데이터 학습으로 특정 도메인의 음성 인식률을 더욱 높일 수 있습니다.
  • 타임 스탬프 지원 문장의 시작 시각을 표시하는 타임 스탬프를 제공 중이며, 단어별 시작 시각 생성 기능을 준비중입니다.
서비스 적용 제안
  • 네이버 뉴스 자막 현재 네이버 방송 뉴스에 적용되어 자동 자막 생성 기능을 제공하고 있습니다.
  • 고객센터 고객센터의 음성 데이터를 텍스트화하여 손쉽게 관리하실 수 있습니다.
  • 오디오/비디오 관리 오디오와 비디오 데이터의 음성을 텍스트화하여 아카이빙하고 분석하실 수 있습니다.
  • 자동 자막 생성 타임 스탬프 기능을 통해 손쉽게 자막을 생성할 수 있습니다.

목소리를 인식하고 정확하게 분리하는
화자 인식 기술

  • 화자 목소리 인식 사전에 등록된 목소리에 대해 1초 남짓한 짧은 호출어에서 화자의 특징을 추출하여 인식합니다.
  • 서로 다른 화자 구분 대화 중인 여러 명의 화자의 목소리를 분리하여 각 화자의 대화 스크립트를 작성하는 기술을 연구 및 개발하고 있습니다.coming soon
  • 움직이는 입모양 인식 비디오 분석을 통해 영상에서 말하는 사람을 확인하고 분리하는 AVSE/AVSD 기술을 연구 및 개발하고 있습니다.coming soon
서비스 적용 제안
  • 클로바 인공지능 스피커 사전에 등록된 여러 명의 목소리를 ‘클로바’라는 호출어 발화만으로 구분하여 개인화된 기능을 제공합니다. *해당 기능은 현재 일본 클로바 스피커에서만 제공됩니다.
  • 녹취록 생성 저장된 음성 파일을 화자가 구분된 스크립트 형태로 텍스트화하여 관리할 수 있습니다.
  • 화상 회의록 작성 화상 회의 상황에서 말하는 사람을 구분하여 더욱 정확한 음성 인식을 제공할 수 있습니다.

선행 연구 과제

  • Audio Event Detection 아기 울음소리 등 사전에 학습한 소리를 높은 정확도로 감지하는 기술을 연구 및 개발하고 있습니다.
  • Sound Source Separation 딥 러닝을 통해 배경 소음이 있는 상황에서 여러 명의 화자를 분리해내는 기술을 연구 및 개발하고 있습니다.
  • SLU Spoken Language Understanding 자연어 처리 기술을 거치지 않고 음성에서 의도를 즉각적으로 파악하는 기술을 연구 및 개발하고 있습니다.
  • AVSD & AVSE Audio-Visual Speaker Diariazation & Audio-Visual Speech Enhancement 비디오 분석을 통해 영상 속에서 말하는 사람을 확인하고, 분리해내는 기술을 연구 및 개발하고 있습니다.

With NAVER Cloud

네이버 클라우드 플랫폼에서 CLOVA Speech 음성 인식 API를 이용하세요. 이용 신청하기

With NAVER CLOVA

네이버 클로바가 제안하는 AI 솔루션을 통해 비즈니스의 새로운 성장과 발전을 경험하세요. 제휴 제안 문의