CLOVA Speech

지금 클로바의 새로운 음성 인식 엔진 NEST를 체험해보세요
뉴스 샘플 음성file delete YTN 뉴스 음성을 NEST 엔진을 통해 실제 인식한 결과입니다. 텍스트 변환 결과는 오인식을 포함할 수 있습니다.
NEST 엔진의 음성인식 기술을 확인해보세요
00:0001:56
기업이나 단체에서 클로바 스피치 사용을 원하시는 경우 제휴 제안으로 문의 바랍니다.

네이버 클로바의 음성 인식 기술, CLOVA Speech

CLOVA는 한국어 및 일본어에 대해 세계 최고 수준의 음성 인식 기술을 갖추고
네이버와 라인의 다양한 음성 기반 서비스에 높은 인식률의 음성 인식 엔진을 제공하고 있습니다.
  • 음성 명령 인식 네이버와 라인의 방대한 데이터를 기반으로
    학습한 클로바 엔진은 다양하고 새로운
    음성 명령에 대해서 정확한 인식률을 제공합니다.
    자세히 보기
  • 딕테이션 (NEST) NEST 엔진은 End-to-End 방식으로 학습하여
    정형화되지 않은 길고 복잡한 문장에 대해서도
    정확한 음성 인식을 제공합니다.
    자세히 보기
  • 화자 인식 클로바의 화자 인식 기술은 짧은 발화만으로도
    등록된 화자 여부를 빠르고 정확하게 판별하여
    화자 인증 및 식별에 활용 가능합니다.
    자세히 보기

음성 어시스턴트를 위한
음성 명령 인식 기술

  • 정확한 호출어 인식 헤이 클로바, 안녕 네이버와 같은 호출어 발화에 대해 높은 정확도로 대응하고 있습니다.
  • 소음에 강한 음성 모델 주변 소음을 제거하며 어시스턴트 스스로 내는 소리가 다시 입력되지 않도록 하는 AEC를 제공합니다.
  • 특정 도메인 사전 학습 새로운 음성 명령어 세트를 사전에 학습하여 서비스 출시에 필요한 인식률을 사전에 향상할 수 있습니다.
  • 다국어 음성 인식 지원 세계 최고 수준의 한국어/일본어 모델과 상용화 가능한 영어, 중국어, 프랑스어, 스페인어 모델을 제공합니다.
  • 실시간 스트리밍 프로토콜 응답시간을 최소화하는 인터랙티브한 응용 프로그램을 제작할 수 있습니다.
  • 인식 후 처리 오인식을 줄이기 위해 음성 인식 결과를 다듬어 보정하는 후처리를 수행합니다.
서비스 적용 사례
  • 클로바 인공지능 스피커 다양한 음성 명령을 완벽한 정확도로 대응하며 명령어 영역을 확장하고 있습니다.
  • 네이버 앱 모바일 환경에 특화된 음성 검색 및 음성 명령을 정확하게 인식합니다.
  • 네이버 지도 도로명 주소, 식당 이름과 같이 지도 서비스에 특화된 음성 인식 모델을 제공합니다.
  • AiCall 예약을 위한 음성 어시스턴트 AiCall에 탑재되어 저품질 통화 음성을 정확하게 인식합니다.

정형화되지 않은 음성을 인식하는
NEST 기술

해당 뉴스 영상의 자막은 NEST 엔진을 통해 자동 생성 되었습니다.
  • 정확한 장문 딕테이션 End-to-end 방식으로 정형화되지 않은 긴 문장 인식에 특화된 음성 인식 엔진을 제공합니다.
  • 데이터 학습 없이 빠른 대응 해당 도메인의 음성 데이터에 대한 사전 학습이 없는 기본 모델만으로도 정확한 인식 결과를 보장합니다.
  • 미디어에 강한 모델 방송 영상이나 오디오 클립의 대화 음성을 텍스트로 변환하고, 자동으로 자막을 생성할 수 있습니다.
  • 스트리밍 또는 배치 처리 미리 녹화된 파일을 처리하는 방식이 가능하며, 스트리밍 프로토콜을 이용한 실시간 딕테이션을 준비중입니다.
  • 도메인 특화 지원 학습을 하지 않아도 높은 정확도를 보이나 데이터 학습으로 특정 도메인의 음성 인식률을 더욱 높일 수 있습니다.
  • 타임 스탬프 지원 문장의 시작 시각을 표시하는 타임 스탬프를 제공 중이며, 단어별 시작 시각 생성 기능을 준비중입니다.
서비스 적용 제안
  • 네이버 뉴스 자막 현재 네이버 방송 뉴스에 적용되어 자동 자막 생성 기능을 제공하고 있습니다.
  • 고객센터 고객센터의 음성 데이터를 텍스트화하여 손쉽게 관리하실 수 있습니다.
  • 오디오/비디오 관리 오디오와 비디오 데이터의 음성을 텍스트화하여 아카이빙하고 분석하실 수 있습니다.
  • 자동 자막 생성 타임 스탬프 기능을 통해 손쉽게 자막을 생성할 수 있습니다.

목소리를 인식하고 정확하게 분리하는
화자 인식 기술

  • 화자 목소리 인식 사전에 등록된 목소리에 대해 1초 남짓한 짧은 호출어에서 화자의 특징을 추출하여 인식합니다.
  • 서로 다른 화자 구분 대화 중인 여러 명의 화자의 목소리를 분리하여 각 화자의 대화 스크립트를 작성하는 기술을 연구 및 개발하고 있습니다.coming soon
  • 움직이는 입모양 인식 비디오 분석을 통해 영상에서 말하는 사람을 확인하고 분리하는 AVSE/AVSD 기술을 연구 및 개발하고 있습니다.coming soon
서비스 적용 제안
  • 클로바 인공지능 스피커 사전에 등록된 여러 명의 목소리를 ‘클로바’라는 호출어 발화만으로 구분하여 개인화된 기능을 제공합니다. *해당 기능은 현재 일본 클로바 스피커에서만 제공됩니다.
  • 녹취록 생성 저장된 음성 파일을 화자가 구분된 스크립트 형태로 텍스트화하여 관리할 수 있습니다.
  • 화상 회의록 작성 화상 회의 상황에서 말하는 사람을 구분하여 더욱 정확한 음성 인식을 제공할 수 있습니다.

선행 연구 과제

  • Audio Event Detection 아기 울음소리 등 사전에 학습한 소리를 높은 정확도로 감지하는 기술을 연구 및 개발하고 있습니다.
  • Sound Source Separation 딥 러닝을 통해 배경 소음이 있는 상황에서 여러 명의 화자를 분리해내는 기술을 연구 및 개발하고 있습니다.
  • SLU Spoken Language Understanding 자연어 처리 기술을 거치지 않고 음성에서 의도를 즉각적으로 파악하는 기술을 연구 및 개발하고 있습니다.
  • AVSD & AVSE Audio-Visual Speaker Diariazation & Audio-Visual Speech Enhancement 비디오 분석을 통해 영상 속에서 말하는 사람을 확인하고, 분리해내는 기술을 연구 및 개발하고 있습니다.

NAVER CLOUD PLATFORM과 함께
음성 인식 API를 제공합니다.

이용 신청하기

With NAVER CLOVA

네이버 클로바가 제안하는 AI 솔루션을 통해 비즈니스의 새로운 성장과 발전을 경험하세요. 제휴 제안 문의