16.09.2016

WaveNet: улучшенный синтезатор речи на основе свёрточной нейросети

Дочерняя компания корпорации Google под названием DeepMind, занимающаяся разработкой и улучшением искусственного интеллекта, представила усовершенствованный алгоритм для синтеза человеческой речи WaveNet. Для достижения более реалистичного результата команда разработчиков использовала собственную систему ИИ.

Купленная в 2014 г., британская компания DeepMind уже успела завоевать серьезную репутацию благодаря программе AlphaGo для игры в Го, кнопке “стоп” для ИИ и другим не менее впечатляющим проектам. В том числе и машинного обучения для понимания естественных языков.

Обычно системы преобразования информации в речь используют уже готовые аудиозаписи голоса. Специальная программа идентифицирует и выделяет нужные звуки, классифицирует их с помощью доступных данных, составляя предложения. Такая система называется компилятивным синтезом. Метод получил свою известность благодаря использованию в популярных голосовых ассистентах, например, Google Voice Search. Однако, у этого метода имеется довольно существенный недостаток, а именно — затруднения при модификации голоса для изменения эмоциональной составляющей речи или акцента.

Parametriс (Английский)

Parametriс (Путунхуа)

Такое положение вещей привело к спросу на альтернативный метод — параметрический TTS. По сути, это машинная генерация речи, исключающая описанные для метода компилятивного синтеза минусы. Впрочем, есть другая проблема. Подобный подход имеет характерные для машинного голоса “синтетические” черты и воспринимается мозгом иначе, нежели обычная человеческая речь. Особенно это касается английского языка (особенности фонетики).

Concatenative (Английский)

Concatenative (Путунхуа)

Работа алгоритма WaveNet решает проблемы параметрического и компилятивного синтезов. Его суть заключается в поточечной генерации профиля звуковой волны по семплам. Разработчики использовали нейросеть типа FCN. Её архитектура схожа с рекуррентными и свёрточными нейросетями (PixelRNN и PixelCNN).

WaveNet — свёрточная нейросеть. Каждый слой здесь имеет свой множитель расширения (смотри анимацию). Это позволяет расти рецептивному полю экспоненциально, покрывая множество временных отрезков. Ранее подобное действие требовало значительно больших мощностей. Возможность генерировать сложные естественные изображения по одному пикселю и цветовому каналу за момент времени — результат адаптации двумерной PixelNets в одномерную WaveNet.

Обучение данной сети происходит путем входящих последовательностей, которые представляют собой звуковые волны примеров записи голоса. На каждом шагу сэмплинга значение вычисляется из вероятностного распределения рассчитанного сетью. Затем это значение возвращается на вход, после чего происходит новое предсказание для следующего шага. Создание сэмплов, таким образом, является достаточно ресурсоемкой задачей, но это необходимо для генерации сложных звуков.

Затем разработчики решили проверить реалистичность своего метода с помощью слепых тестов. Собравшихся добровольцев попросили оценить “естественность” образцов по шкале от одного до пяти. В итоге WaveNet получил самую высокую оценку среди упомянутых в статье синтезаторов речи. Тем самым сократив разрыв между искусственной и естественной речью почти на 50%.

WaveNet (Английский)

WaveNet (Путунхуа)

Учитывая гибкость WaveNet, система может самостоятельно синтезировать подобие человеческой речи. В данном случае она использует полученные знания о том, как должен звучать каждый последующий звук. Это позволяет нейросети не просто имитировать речь, а привносить в нее эмоциональный окрас.