WaveNet: улучшенный синтезатор речи на основе свёрточной нейросети

Дочерняя компания корпорации Google под названием DeepMind, занимающаяся разработкой и улучшением искусственного интеллекта, представила усовершенствованный алгоритм для синтеза человеческой речи WaveNet. Для достижения более реалистичного результата команда разработчиков использовала собственную систему ИИ. 

Купленная в 2014 г., британская компания DeepMind уже успела завоевать серьезную репутацию благодаря программе AlphaGo для игры в Го, кнопке “стоп” для ИИ и другим не менее впечатляющим проектам. В том числе и машинного обучения для понимания естественных языков.

Обычно системы преобразования информации в речь используют уже готовые аудиозаписи голоса. Специальная программа идентифицирует и выделяет нужные звуки, классифицирует их с помощью доступных данных, составляя предложения. Такая система называется компилятивным синтезом. Метод получил свою известность благодаря использованию в популярных голосовых ассистентах, например, Google Voice Search. Однако, у этого метода имеется довольно существенный недостаток, а именно — затруднения при модификации голоса для изменения эмоциональной составляющей речи или акцента.

Такое положение вещей привело к спросу на альтернативный метод — параметрический TTS. По сути, это машинная генерация речи, исключающая описанные для метода компилятивного синтеза минусы. Впрочем, есть другая проблема. Подобный подход имеет характерные для машинного голоса “синтетические” черты и воспринимается мозгом иначе, нежели обычная человеческая речь. Особенно это касается английского языка (особенности фонетики).

Работа алгоритма WaveNet решает проблемы параметрического и компилятивного синтезов. Его суть заключается в поточечной генерации профиля звуковой волны по семплам. Разработчики использовали нейросеть типа FCN. Её архитектура схожа с рекуррентными и свёрточными нейросетями (PixelRNN и PixelCNN).

Устройство WaveNet

WaveNet — свёрточная нейросеть. Каждый слой здесь имеет свой множитель расширения (смотри анимацию). Это позволяет расти рецептивному полю экспоненциально, покрывая множество временных отрезков. Ранее подобное действие требовало значительно больших мощностей. Возможность генерировать сложные естественные изображения по одному пикселю и цветовому каналу за момент времени — результат адаптации двумерной PixelNets в одномерную WaveNet.

Обучение данной сети происходит путем входящих последовательностей, которые представляют собой звуковые волны примеров записи голоса. На каждом шагу сэмплинга значение вычисляется из вероятностного распределения рассчитанного сетью. Затем это значение возвращается на вход, после чего происходит новое предсказание для следующего шага. Создание сэмплов, таким образом, является достаточно ресурсоемкой задачей, но это необходимо для генерации сложных звуков.

Затем разработчики решили проверить реалистичность своего метода с помощью слепых тестов. Собравшихся добровольцев попросили оценить “естественность” образцов по шкале от одного до пяти. В итоге WaveNet получил самую высокую оценку среди упомянутых в статье синтезаторов речи. Тем самым сократив разрыв между искусственной и естественной речью почти на 50%.

Учитывая гибкость WaveNet, система может самостоятельно синтезировать подобие человеческой речи. В данном случае она использует полученные знания о том, как должен звучать каждый последующий звук. Это позволяет нейросети не просто имитировать речь, а привносить в нее эмоциональный окрас.

И то, что недоступно в случае с компилятивным синтезом, для WaveNet не проблема.

Но и это не все. Помимо человеческой речи, WaveNet также может быть использована для создания музыки (16КГц).

WaveNet пока нигде не используется, так как требует серьезных вычислительных мощностей. Впрочем, разработчики не исключают, что найдут ей применение.

Please wait...
Теги: , , , , , , , , , , , ,
0
0 Комментарий
guest

Межтекстовые Отзывы
Посмотреть все комментарии
Наверх