Наверх
Нет комментов 30/09/2016

Google улучшила перевод с помощью нейросетей

Google улучшила перевод с помощью нейросетей

Компания Google продолжает наращивать мощь, каждый день удивляя все больше и больше. Совсем недавно мы писали о совершенствовании фирменного синтезатора речи с помощью перехода с системы компилятивного синтеза на сверточную нейросеть. А уже на днях в официальном блоге компании появилась запись об улучшенной системе перевода, благодаря задействованию… нейросетей.

Десять лет назад Google объявила о запуске Google Translate, работающего по принципу статистического машинного перевода, где результат генерируется на основе статистических моделей (по словам, фразам, синтаксису и иерархическим фразам). Их параметры являются образованием от анализа параллельных корпусов текста (текст оригинала и его перевод). Простыми словами, это статистический машинный перевод, представленный в виде программы, которая анализирует большой массив доступных данных. Например, словари или другие переведенные человеком документы, где есть оригинал и перевод. После система делает выборку, переводит словарь и грамматику одного языка на другой и составляет готовые предложения.

Основными проблемами статистического машинного перевода (SMT) являются многочисленные грамматические ошибки, а также нестабильность перевода.

На этой неделе компания объявила о переходе на рекуррентную нейронную сеть (Machine Translation Neura), которая значительно отличается от машинного перевода, чья система состоит из многих подкомпонентов, оптимизированных каждый по отдельности. GMTN, в свою очередь, основана на принципах глубинного обучения.

Конечный ответ зависит от предыдущего состояния сети, а не только поступающих на вход данных. Такой принцип действия чем-то напоминает человеческий, позволяя системе ориентироваться благодаря полученному опыту.

Рекуррентные нейросети содержат в себе обратную связь позволяющую передавать данные для поэтапного выполнения.

GMNT построена на особом виде PHC (рекуррентная нейросеть), называемой LSTM-сетью и состоящей из двух восьмислойных нейросетей: анализирующей и синтезирующей. Иными словами, энкодера и декодера, между которыми установлен модуль внимания. Энкодер анализирует оригинальное предложение (слева направо и в обратном направлении), передавая обработанную информацию декодеру, который на основе полученного состояния составляет перевод. Модуль внимания корректирует работу системы и ориентирован на поиск и выявление ключевых моментов. Например, фразеологизмов.

Изображенные боксы отражают состояние вектора в слое.

Для оценки эффективности системы отобрали большое количество материалов, которые позже протестировали с помощью NMTS, SMT, а также живых переводчиков. Исходя из данных полученных с помощью опросов и дополнительных оценок специалистов, точность перевода новой системы значительно выше, чем у существующих аналогов. Впрочем, пока не дотягивает до человеческого результата.

На данный момент система ограничивается несколькими языками, среди которых английский, китайский, французский и испанский. Все три работают только в связке с английским. Наилучшие результаты, в сравнение с предшествующими системами перевода Google, демонстрирует пара испанского и английского. Качество перевода (по оценке людей) выросло на 60-87% относительно человеческого результата. По шкале от нуля до шести языковая пара английский-испанский получила оценку — 5,428 балла, перевод с помощью Google Translate заработал 4,885 балла, а результат профессиональных переводчиков оценили в 5,550 баллов.

Связка английский-китайский известна своей грамматической сложностью. Несмотря на значительное уменьшение количества ошибок, качество перевода в этой языковой паре существенно уступает переводу индоевропейских языков.

Следующая визуализация демонстрирует прогрессирование GNMT и перевод китайского предложение на английский язык. Больше примеров вы сможете найти здесь.

Разработчики уже запустили систему на мобильном приложении, но пока только для англо-китайской версии. В течении нескольких месяцев планируется добавить другие языковые пары.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.

Modal box

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: