Вчера Google провела своё ежегодное мероприятие Google I/O, на котором рассказала много чего интересного. Вот тут Женя уже писал про самое важное, а вот тут Саша рассказал об этом на видео.
Я же решил уделить отдельное внимание одной из продемонстрированных разработок. Речь о технологии Google Duplex. По сути, это система искусственного интеллекта, призванная вместо вас звонить в различные учреждения и оформлять там заказы. Google Duplex сможет заказать пиццу, забронировать столик в ресторане, купить билеты в кино, записаться в салон красоты и так далее. Можно было бы пошутить на тему того, что это лишь подбрасывает дровишек в огонь, связанный с распространением социопатических настроений в современном обществе, но не будем об этом. Тем более, что разработка действительно крайне важная для отрасли.
В общем, сценарий прост. Вы просите Google Assistant, к примеру, заказать вам пиццу с сыром, а дальше Duplex всё делает сам. Звонит в пиццерию, оформляет заказ, указывает ваши данные и адрес. Пока непрояснённым остаётся вопрос по поводу уточнений, которые может задавать оператор. Видимо, они будут в текстовом режиме поступать на смартфон в виде сообщений Assistant, а ответы пользователя и будут использоваться в ответах Duplex.
Впечатляет то, насколько натурально звучит голос искусственного интеллекта во время звонков. Вот, послушайте сами.
Голос, по сути, невозможно отличить от живого человека. Да, по некоторым моментам в разговоре, если вы уже знаете о существовании Google Duplex, можно что-то заподозрить, но не более. Google даже научила ИИ использовать абсолютно бессмысленные с точки зрения машины хезитационные паузы! Это вот те самые «эммм», «ммм», «нууу» и прочие паразитные «слова» и звуки, которые человек использует для заполнения пауз при построении фраз и предложений. Правда, становится немного страшно, если представить, что, изменив соответствующим образом голос системы, можно, посредством таких ИИ, манипулировать людьми. Но пока можно выдохнуть. Суть в том, что Duplex — крайне сложная система. Она не является частью Assistant и существует как бы сама по себе. Система создана таким образом, что не может вести диалоги на любую тему, как это условно умеет делать то же Assistant. Она заточена именно под формат диалогов в процессе оформления каких-либо заказов. С другой стороны, это лишь начало, и в недалёком будущем явно появятся примерно такие же системы, но уже способные вести общие разговоры.
Когда я узнал о Duplex, мне сразу вспомнился голосовой ассистент Viv, показанный ещё в 2016 году. Вот тут мы о нём подробно писали, я лишь напомню. Суть Viv была примерно такой же, как у Duplex: упростить пользователю процесс оформления заказов, покупок, бронирования и прочего. Только там речь шла об онлайн-заказах. Достаточно было попросить Viv заказать пиццу, а помощник сам заходил на сайт той или иной пиццерии, оформлял заказ, сам уточнял у пользователя, к примеру, размер пиццы и начинку, и сам завершал оформление. И это было ещё в 2016 году! К сожалению (может и к счастью, но что-то не похоже), Viv Labs купила компания Samsung. Видимо, чтобы использовать наработки при создании своего Bixby. Но Bixby вышел, а вот таких возможностей что-то у него нет, и неизвестно, появятся ли они в ближайшем будущем.
У Viv особенностью было то, что для своей работы ему в базу данных нужно было интегрировать тот или иной сервис, магазин и прочее. Уже на момент демонстрации разработчики говорили о 50 компаниях, которые захотели иметь поддержку Viv. В случае с Duplex, видимо, можно будет просить систему звонить условно в любой магазин, но не факт. Возможно, также будут доступны лишь конкретные сервисы, что несколько ограничивает конкуренцию, но большинству пользователей это будет неважно.
На мой взгляд гораздо проще настроить ИИ на работу с сайтом, а не учить его разговаривать, как человек, и понимать обыденную человеческую речь. Но Google говорит, что около 60% небольших компаний в США не имеют формы для онлайн-заказа, то есть оформить заказ можно лишь по телефону. Конечно, в конце концов всё это переместиться в сеть, но до того момента, думаю, Duplex успеет всех удивить.
Теперь немного технических подробностей. В основе Duplex лежит рекуррентная нейронная сеть, построенная с использованием технологии TensorFlow Extended. Duplex обучали, скармливая системе анонимные телефонные разговоры. Как давно ведётся разработка, не сообщается, но, думаю, пару лет точно.
Отдельного внимания заслуживает упоминание в пресс-релизе того факта, что сейчас Duplex контролируется операторами. Система способна определять моменты в разговоре, когда она не может справиться с ситуацией. Тогда она отправляет запрос живому оператору, который каким-то образом направляет её. В такие моменты система учится на своих ошибках или недоработках, чтобы стать умнее. В будущем помощь операторов не потребуется, но сейчас она есть, и не очень понятно, как часто к ней прибегает ИИ.
Google Duplex будут тестировать с Assistant начиная с лета. Когда система станет доступна простым смертным, не говорится. Кроме того, учитывая просто сумасшедшую сложность, думаю, английский останется единственным языком Duplex на долгое время.
Не знаю, как для вас, а для меня Duplex, наверное, является одним из самых впечатляющих проявлений технологий искусственного интеллекта. Поражает и то, как система разговаривает, и то, как она понимает беглую рваную и порой совершенно неструктурированную человеческую речь. Когда голосовые ассистенты станут именно такими, это будет попросту революция. Однако до этого момента явно пройдёт ещё много лет. Хотя, вполне возможно, Google просто будет понемногу интегрировать в Assistant некоторые разработки такого рода. То есть мы не получим совершенно новую систему когда-то там в один прекрасный момент, а будем получать её постепенно, по кусочкам.
Шоу ничего не доказывает, оно только показывает то, что выгодно его авторам. Почему бы им не показать, что может этот титанический бот в прямом эфире? Но нет, они показывают запись, которую легко подделать.
эм.. ну да, могут, а смысл?
то есть, несомненно, на презентациях что-то где-то как-то можно подстроить, но только для перестраховки, когда ты уверен, что твой продукт всё-таки это сможет.
какой смысл Google демонстрировать что-то, чего у них нет?)) тем более, когда речь идёт о весьма специфической технологии. акции это не поднимет, купить какой-то продукт людей не заставит. тестировать начнут уже летом, вот и посмотрим)
Блин.., теперь что нужно будет и во время звонков проходить проверку “а робот ли ты?”
капчу сделают
Себрант правильно назвал эту технологию “отличным интерфейсом к старому миру”. Красиво выглядит (кхм, звучит), даже имеет вау-эффект, но, по сути, кроме как для обеспечения старой голосовой коммуникации она не нужна. Онлайн — вот настоящее и будущее. Зачем слать робота позвонить за пиццей если проще оформить её в приложении?
мне тоже кажется, что проще работать над интеграцией с онлайном, о чём я и написал. но, и это тоже есть в статье, Google утверждает, что 60% малых компаний не имеют формы для онлайн-заказа. и я думаю, что потраченные на Duplex миллионы долларов Google тратила не по дурости своей, а понимания, что делает.
к тому же те технологии, которые есть в Duplex, пойдут на развитие других сходных систем. та же способность распознавать беглую речь с кучей сленговых фраз