Голосовое программирование: то, что изменит нашу жизнь

17.06.2019 Android Оставить комментарий 349 Просмотры

Twitter

Google+

Голос – это то, что вдыхает жизнь в искусственный интеллект. Так говорит Джеймс Влахос, программист, журналист и писатель, автор книги Talk to Me: How Voice Computing Will Transform the Way We Live, Work, and Think. Именно ему принадлежит уникальный эксперимент – цифровая копия его умирающего от рака отца. Использовав появившиеся в Facebook Messenger инструменты для создания чат-ботов и многие часы диктофонных записей с отцовскими историями, байками и рассуждениями, Влахос при поддержке отца фактически добился для него своего рода бессмертия. Но речь сегодня пойдет не об этом проекте.

Интервью с Джеймсом посвящено голосу как «провоцирующему воображение» аспекту технологии, который уже многие годы фигурирует в научной фантастике. И сейчас, по мнению писателя, именно голос должен изменить все. Голосовые ассистенты уже могут говорить и демонстрировать индивидуальность. И по мере развития технологии она принесет множество вопросов, с которыми мы никогда не сталкивались.

Что на самом деле происходит, когда мы говорим с кем-то вроде Алексы и она нам отвечает?

Если вы поговорили с Сири или Алексой, сказали что-то и услышали что-то в ответ, вам кажется, что происходит один процесс. Но в реальности стоит воспринимать его как совокупность вещей, каждую из которых трудно выделить.

Прежде всего, звуковые волны вашего голоса должны быть сконвертированы в слова, это автоматическое распознавание голоса (automatic speech recognition, ASR). Затем слова должны быть переведены компьютером, чтобы он мог осознать их значение, и это уже понимание естественного языка (NLU, natural language understanding). Если значение было каким-то образом понято, компьютер должен сказать что-то в ответ, и это генерация естественного языка (NLG, natural language generation). Если ответ был сформулирован, происходит синтез речи, когда слова берутся в компьютере и переводятся обратно в звук.

Каждый из этих компонентов очень сложен. Это не то, что компьютер просто «залез в словарь посмотреть слово». Компьютеру надо понять, как функционируют люди и мир, чтобы быть способным ответить.

Есть ли какие-то впечатляющие успехи в данной области, которые вызывают у вас интерес?

Много интересной работы проведено в области генерации естественного языка. Нейронные сети позволяют компьютеру говорить самостоятельно. Это не просто использование неких предписанных слов, это происходит после обучения на огромных массивах человеческой речи – субтитров к фильмам, тредов на Reddit и тому подобном. Компьютеры обучаются стилям взаимодействия людей, типам высказываний, которые человек А может адресовать человеку Б. До определенной степени компьютер стал творчески подходить к задаче, это привлекло мое внимание.

Какова конечная цель? Как это будет выглядеть, когда голосовое программирование станет вездесущим?

Большие возможности кроются в том, что компьютеры и телефоны, которые мы сейчас используем, потеряют в значимости в нашей жизни среди технологий, а компьютеры в каком-то роде исчезнут. Вам нужна информация, вы хотите, чтобы нечто было сделано, вы просто говорите, а компьютеры выполняют вашу просьбу.

Это большой сдвиг, ведь мы всегда были создателями и пользователями инструментов. Всегда есть то, что мы берем, держим, касаемся, свайпаем. И когда мы представляем, что это все попросту исчезает, и все возможности компьютера оказываются эффективны в своей незаметности, поскольку мы говорим с маленькими встроенными микрофонами вокруг, подключенными к облаку, – вот тут этот сдвиг и ощущается.

Еще одно изменение связано с тем, что мы стали устанавливать взаимоотношения с компьютерами. Людям нравятся телефоны, но они не воспринимают их как личности. Но мы вступили в эпоху, когда мы стали относиться к компьютерам как к существам. До определенной степени они выражают эмоции, у них есть индивидуальность. У них есть свои антипатии. Мы ищем их общества. Это то новое, чего вы не могли ожидать от тостера, микроволновки или смартфона.

Кто может больше всего выиграть от роста голосовых ассистентов? Одна из групп людей, о которых мы часто слышим, – это пожилые люди, поскольку у них ухудшается зрение и им легче общаться голосом. Кто еще?

Пожилые люди и дети – вот истинные фокусные группы для испытания возможностей голосового программирования и искусственного интеллекта. У пожилых существует проблема долговременного одиночества, так что именно они могут захотеть, например, поболтать с Алексой. Есть приложения, где голосовой ИИ используется в качестве сиделки, напоминая принять лекарства и давая возможность родным отслеживать это на расстоянии.

Не прибегая к чрезмерным обобщениям, можно вспомнить, что у некоторых пожилых людей развивается деменция, и им сложнее распознать, что компьютер на самом деле не является живым существом. То же и с детьми, их связь с реальностью еще не так прочна, и они, возможно, могут более охотно общаться с этими персонифицированными ИИ, как если бы те были живыми существами. Вы можете также видеть, как голосовые ИИ используются как виртуальные няньки – мы не дома, а за ребенком может присмотреть компьютер. Пока что это не является реальностью в полной мере, но в какой-то степени, кажется, скоро ей станет.

Что произойдет, когда у нас будут виртуальные няньки и все такое, а все технологии отойдут на задний план?

В мрачном сценарии мы станем все меньше искать человеческого общества, потому что нам будет хватать наших виртуальных друзей. Также будут происходить утечки информации в Amazon, когда людям потребуется компания Алексы, чтобы поболтать.

Но можно посмотреть на это и с позитивной стороны. То, что мы делаем машины человечнее, хорошо. Хотим мы или нет, но мы проводим массу времени перед компьютером. И если это взаимодействие станет более естественным и менее – про клики и свайпы, это будет означать, что и мы станем более реальными и человечными в сравнении с тем, как мы сейчас превращаемся в псевдомашины, взаимодействуя с устройствами.

И я думаю, что у нас будет больше централизованной власти над Большими Технологиями. В особенности когда речь идет о чем-то вроде поиска в интернете. Меньше надо будет сидеть в браузере, искать нужную информацию, синтезировать ее, открывать журналы, книги, что угодно. Вместо этого можно будет просто задавать вопросы нашим голосовым оракулам с искусственным интеллектом. Это действительно удобно, но это означает и гораздо большее доверие компаниям вроде Google, говорящим нам, что правда, а что нет.

Чем этот сценарий отличается от нынешнего, тревожного, с фейковыми новостями и дезинформацией?

В случае с голосовыми ассистентами нежелательно и непрактично в ответ на ваш вопрос предлагать вам голосовой аналог столбика голубых ссылочек. И потому Google должен выбрать, какой ответ вам дать. Сейчас он обладает огромной силой, так как решает, какая информация должна быть показана, а история доказала, что если контроль над информацией сосредоточен в одних руках, это редко хорошо кончается для демократии.

Сейчас очень много говорят о фейковых новостях. В случае с голосовыми ассистентами мы получаем перекос в другую сторону. Google должен будет быть очень зациклен на том, чтобы не показывать «фейковые новости». Если надо показать всего один ответ, лучше бы ему не быть полным барахлом. Думаю, что в большей степени пойдет о цензуре. Почему они должны выбирать то, что должно считаться истиной?

Насколько нам стоит беспокоиться о приватности и типах анализа информации, который может быть проведен с использованием голоса?

Я так же беспокоюсь о проблемах приватности, как и в целом касательно смартфонов. Если технологические компании смогут злоупотреблять доступом к моему дому, они могут сделать это и с моим компьютером, и с Алексой, находящейся в комнате.

Речь не о том, чтобы уменьшить беспокойство насчет приватности. Я думаю, что эти опасения очень, очень реалистичны. Но я уверен, что нечестно выделять голосовые ассистенты как худшие в этом отношении. Хотя смысл в том, что мы используем их в других условиях, на кухне и в гостиной.

Немного сменим тему. В вашей книге некоторое место занимает обсуждение индивидуальностей различных голосовых ассистентов. Насколько компаниям важно, чтобы их продукты обладали индивидуальностью?

Индивидуальность важна. Это ключевой момент, а иначе зачем вообще нужен голос? Если вам требуется чистая эффективность, вам подойдет телефон или ПК. Чего пока в полной мере нет, так это разницы между Cortana, Alexa и Siri. Мы не видим усилий технологических компаний по созданию значительно отличающихся индивидуальностей с идеями в основе, целящимися в различные части рынка. Они не делают то, что практикуют кабельное телевидение или Netflix, которые делят потребительский ландшафт на разнообразные сегменты.

Я предвижу, что это произойдет в будущем. Сейчас Google, Amazon и Apple просто хотят нравиться большему числу людей, поэтому они не работают прицельно. Но я думаю, они станут развивать технологию до той степени, что мой ассистент будет не таким, как ваш или вашего коллеги. Думаю, они займутся этим, потому что это может быть привлекательно. С каждым продуктом в нашей жизни имеет место одно и то же – не существует универсального решения, и я не вижу причин, почему это не затронет и голосовые ассистенты.

источник

Обзор мобильных телефонов

Отличный отдых в Турции в мае и отзыв о GLOBALSIM DIRECT

Купить сим-карты Orange, Vodafone и Глобалсим в Тюмени

Купить сим-карты Orange, Vodafone и Глобалсим в Ставрополе

Купить сим-карты Orange, Vodafone и Глобалсим в Самаре

Авиакомпания S7: это и есть мародерство?

Как я избавился от WhatsApp-зависимости

У Samsung готова полностью виртуализированная сеть 5G RAN

Киевстар и Vodafone Украина подписали Меморандум о совместном использовании мобильных сетей

Планшет Lenovo Yoga X сможет выполнять роль второго дисплея для самых разных устройств

Смартфон Oukitel C19 начали продавать на AliExpress с ограниченным предложением по цене $59,99

Vivo положила камеру X50 Pro в приглашение на анонс девайса в Индии

Новый смартфон Motorola razr с гибким экраном может получить необычный дизайн

Обзор ноутбука Samsung RV408

ASUS VivoBook S200E – маленький ультрабук с большими возможностями

ASUS X750JB – все условия для работы и досуга в одном ноутбуке

HP ProBook 455 G8 – классика на службе у бизнеса

Обзор телефона-спиннера Servo S08

Обзор смартфона Xiaomi Mi A1

Отзыв о смартфоне Xiaomi Redmi 4X

Turbo X5 Max: максимальный обзор

Рекордер Sony D10

Зачем СДЭК требует паспорт?

2021 — год Android?

Быстрый обзор веб-камеры Ausdom AF660

Тор-5: интересные приложения для iPhone и iPad

iPhone 12 Pro сможет снимать видео 4K со скоростью 240 кадров в секунду

PUBG Mobile – бегай, собирай, стреляй

Первый взгляд на macOS Big Sur. Видеообзоры

Голосовое программирование: то, что изменит нашу жизнь

Связанные статьи

Проверьте также

Быстрый обзор веб-камеры Ausdom AF660

Добавить комментарий Отменить ответ

Основатели Google Сергей Брин и Ларри Пейдж покидают Alphabet

iPhone 12 получит большие изменения дизайна и будет похож на iPhone 4

Blackview приглашает вас встретиться 24 февраля на выставке MWC 2020