Компания Google продолжает наращивать мощь, каждый день удивляя все больше и больше. Совсем недавно мы писали о совершенствовании фирменного синтезатора речи с помощью перехода с системы компилятивного синтеза на сверточную нейросеть. А уже на днях в официальном блоге компании появилась запись об улучшенной системе перевода, благодаря задействованию… нейросетей.

Десять лет назад Google объявила о запуске Google Translate, работающего по принципу статистического машинного перевода, где результат генерируется на основе статистических моделей (по словам, фразам, синтаксису и иерархическим фразам). Их параметры являются образованием от анализа параллельных корпусов текста (текст оригинала и его перевод). Простыми словами, это статистический машинный перевод, представленный в виде программы, которая анализирует большой массив доступных данных. Например, словари или другие переведенные человеком документы, где есть оригинал и перевод. После система делает выборку, переводит словарь и грамматику одного языка на другой и составляет готовые предложения.

Основными проблемами статистического машинного перевода (SMT) являются многочисленные грамматические ошибки, а также нестабильность перевода.

На этой неделе компания объявила о переходе на рекуррентную нейронную сеть (Machine Translation Neura), которая значительно отличается от машинного перевода, чья система состоит из многих подкомпонентов, оптимизированных каждый по отдельности. GMTN, в свою очередь, основана на принципах глубинного обучения.

Конечный ответ зависит от предыдущего состояния сети, а не только поступающих на вход данных. Такой принцип действия чем-то напоминает человеческий, позволяя системе ориентироваться благодаря полученному опыту.

Рекуррентные нейросети содержат в себе обратную связь позволяющую передавать данные для поэтапного выполнения.

GMNT построена на особом виде PHC (рекуррентная нейросеть), называемой LSTM-сетью и состоящей из двух восьмислойных нейросетей: анализирующей и синтезирующей. Иными словами, энкодера и декодера, между которыми установлен модуль внимания. Энкодер анализирует оригинальное предложение (слева направо и в обратном направлении), передавая обработанную информацию декодеру, который на основе полученного состояния составляет перевод. Модуль внимания корректирует работу системы и ориентирован на поиск и выявление ключевых моментов. Например, фразеологизмов.

Изображенные боксы отражают состояние вектора в слое.

Для оценки эффективности системы отобрали большое количество материалов, которые позже протестировали с помощью NMTS, SMT, а также живых переводчиков. Исходя из данных полученных с помощью опросов и дополнительных оценок специалистов, точность перевода новой системы значительно выше, чем у существующих аналогов. Впрочем, пока не дотягивает до человеческого результата.

На данный момент система ограничивается несколькими языками, среди которых английский, китайский, французский и испанский. Все три работают только в связке с английским. Наилучшие результаты, в сравнение с предшествующими системами перевода Google, демонстрирует пара испанского и английского. Качество перевода (по оценке людей) выросло на 60-87% относительно человеческого результата. По шкале от нуля до шести языковая пара английский-испанский получила оценку — 5,428 балла, перевод с помощью Google Translate заработал 4,885 балла, а результат профессиональных переводчиков оценили в 5,550 баллов.

Связка английский-китайский известна своей грамматической сложностью. Несмотря на значительное уменьшение количества ошибок, качество перевода в этой языковой паре существенно уступает переводу индоевропейских языков.

Следующая визуализация демонстрирует прогрессирование GNMT и перевод китайского предложение на английский язык. Больше примеров вы сможете найти здесь.

Разработчики уже запустили систему на мобильном приложении, но пока только для англо-китайской версии. В течении нескольких месяцев планируется добавить другие языковые пары.

Please wait...
Комменты

3 комментария

сначала новые
по рейтингу сначала новые по хронологии
1
ДжонниМорган

Интересная публикация! Но машина все равно пока еще не может грамотно переводить, а тем более сложные языки. Мне как-то потребовалось сделать срочный перевод, и обращался по совету коллеги в бюро "Лингвосервис" https://www.lingvoservice.ru/corpdocs . Получилось в итоге все очень удачно - перевод корпоративных документов был осуществлен на высоко профессиональном уровне, и кстати за срочную работу с меня не взяли дополнительной платы, и это тоже порадовало. В общем советую обращаться при надобности.

2

англо-китайский перевод довольно непростой, а потому мне кажется, что работа была проведена просто грандиозная! Благодарю за приятное известие)

3
Михаил

Хороша новость, буду надеяться, что качество перевода улучшиться, а то приходится общаться с зарубежными партнерами.

Новый комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.