음성 합성 알고리즘 개발 동향

김남수교수

김남수 교수
(서울대학교 전기정보공학부)

스마트 폰, 웨어러블 디바이스, 스마트 자동차 등 스마트 기기 환경의 발전에 따라 최근 음성 기반 인터페이스에 대한 수요가 급증하고 있다. 음성 기반 인터페이스가 발전됨에 따라 기존에 주로 사용되던 터치 방식의 인터페이스에서 벗어나 음성을 통해 자연스럽고 편리하게 스마트 기기들을 제어할 수 있게 되었다. 급증하는 음성 기반 인터페이스의 수요에 발 맞추어 다양한 음성 신호처리 알고리즘들이 제안되고 있으며 지속적인 성능 향상을 보이고 있다. 이 글에서는 다양한 음성 신호처리 분야 중에서 음성 인터페이스 개발에 중요한 기술 중 하나인 음성 합성 분야의 최근 연구 동향에 대해 알아보고자 한다.

음성 합성은 간단히 말해서 문자를 음성으로 변환해주는 기술이다. 기존에는 음성 합성을 위해 hidden Markov model(HMM)로 대표되는 통계적 모델 기반의 알고리즘이 주로 사용되었다. 최근 딥 러닝 기법이 발달함에 따라 음성 합성 연구의 기법의 패러다임이 통계적 모델 기반의 알고리즘에서 딥 러닝 기법으로 변화하고 있다. 이와 같은 패러다임의 변화의 원인은 기존에 가장 많이 사용되던 HMM 기반 음성합성 기술의 가장 큰 단점인 합성음 품질 개선의 한계를 딥 러닝 기법을 이용해 극복 할 수 있기 때문이다. 이와 같은 추세는 음성 합성뿐만 아니라 음성 신호처리의 또 다른 주요 분야인 음성인식에서 또한 마찬가지로 발생하고 있다.

딥 러닝을 이용한 음성 합성 개요도

그림1. 딥 러닝을 이용한 음성 합성 개요도

최근 음성 합성 분야에서 각광받는 딥 러닝은 인간의 신경망을 모방하여 수많은 데이터 속에서 패턴을 찾아내는 기계학습 기법 중 하나로, 비선형의 artificial neural network 층을 여러 개 쌓는 구조를 갖고 있다. 음성 합성은 일종의 regression 문제로 [그림 1]과 같이 입력에 텍스트 정보인 linguistic feature를, 출력에 acoustic feature를 사용하는 딥 러닝 구조의 output layer에 linear layer와 같은 구조를 쌓음으로써 구현할 수 있다. 음성은 시간적 순서에 따른 상관관계가 높기 때문에 단순한 형태의 feedforward neural network보다는 시간적 흐름을 반영할 수 있는 long short term memory, gated recurrent unit 등 다양한 recurrent neural network의 형태의 구조를 사용하고 있다. 또한 서로 연관된 여러 작업들을 동시에 학습하여 성능을 높이는 multi-task learning 등도 활발하게 연구되고 있다. 딥 러닝 구조를 통한 성능 향상 이외에도 학습 시 사용되는 목적함수를 sequence에 맞게 바꾸거나 optimizer, activation 함수, regularization 등을 음성에 맞게 변형시켜 음성 신호처리 분야에 적용하기 위한 연구 또한 지속되고 있다.

이외에도 HMM 기반의 큰 장점 중 하나인 다양한 음색이 표현 가능한 유연성을 획득하기 위해 딥 러닝에서의 적응 학습 기법 연구 개발을 통한 다양한 감정이나 singing voice 표현 연구가 진행되고 있으며, 음성의 보다 정확한 모델링을 위해 딥 러닝을 통해 acoustic feature를 추출하는 연구 또한 활발하게 이루어지고 있다.
지금까지 딥 러닝을 이용한 음성 합성 기술에 대해 간단히 알아보았다. 딥 러닝 기법에 대한 연구는 계속해서 활발히 이루어지고 있으며 이에 따른 음성신호처리 기법의 성능 향상을 통해 음성 기반 인터페이스를 이용한 인간과 기계 사이의 의사 소통이 빠른 시일 안에 가능해 질것으로 생각된다.@New Media and Communications Newsletter 2016. 6