Голосовые помощники

Голосовые помощники, такие как Алиса от Яндекса, Маруся от Mail.ru Group, Alexa от Amazon и Google Assistant, быстро становятся стандартной функцией многих умных домашних устройств.

От умных колонок и умных часов до умных телевизоров и умных термостатов — эти устройства с голосовым помощником используются практически во всех сферах нашей жизни.

Что такое голосовой помощник? Голосовой помощник — это автоматизированное программное приложение или платформа, позволяющая пользователям взаимодействовать с устройствами и управлять ими с помощью простых голосовых команд. Голосовые помощники используют возможности обработки естественного языка, технологии распознавания голоса и синтеза речи для обработки команд и выполнения различных задач и функций.

В этой статье я расскажу, как технология распознавания речи превратилась в голосовых помощников, которых мы знаем сегодня. Я объясню несколько распространенных заблуждений о голосовых помощниках и дам обзор самых популярных голосовых помощников, доступных в настоящее время.

Краткая история технологии распознавания речи

Трудно поверить, но создание современного голосового помощника зародилось еще в 1952 году, когда Bell Labs создала машину автоматического распознавания цифр. По прозвищу «Одри» устройство распознавало произносимые цифры 0–9. Он мог достичь этого с точностью 90%, но только тогда, когда цифры были произнесены его первоначальным создателем К. Дэвис. Излишне говорить, что использование Одри было чрезвычайно ограниченным, но в то время это был значительный прорыв в распознавании речи.

В 1961 году на рынке была представлена ​ IBM Shoebox. Эта машина стала еще одним важным достижением в развитии технологии распознавания речи. Shoebox могла распознавать 16 слов и цифры от 0 до 9. Она могга вычислять простые арифметические функции, распознавая такие командные слова, как «плюс», «минус» и «всего».

Первый аппарат для распознавания речи

После IBM Shoebox последовали несколько других машин, которые продолжили технологический марш в направлении голосовых помощников, которые мы используем сегодня. В 1971 году Министерство обороны США профинансировало программу DARPA по изучению понимания речи, которая привела к созданию Harpy — машины, которая могла распознавать 1011 слов. В 1980-х годах IBM создала Tangora, пишущую машинку с голосовым управлением, которая могла распознавать 20 000 слов.

В 1990 году Dragon выпустила первый продукт для распознавания речи для потребителей по цене 9000 долларов. Программное обеспечение под названием DragonDictate использовало «дискретную речь», когда пользователю приходилось делать паузу между каждым произнесенным словом.

Перенесемся в сегодняшний день, где есть полдюжины основных голосовых помощников, которые способны на гораздо больше, чем IBM Shoebox или Harpy. Благодаря быстрому развитию искусственного интеллекта и машинного обучения современные голосовые помощники теперь могут выполнять самые разные задачи — от заказа продуктов в Интернете и планирования встреч до предоставления обновлений новостей и даже помощи пользователям в оплате счетов.

Распространенные заблуждения о голосовых помощниках

В последние годы многие устройства умного дома получили возможность управляться голосовым помощником. Скоро голосовые помощники смогут работать практически на любом устройстве. Развитие «Интернет-вещей» приведет к точке, где все без исключения бытовые устройства будут подключены и смогут взаимодействовать друг с другом.

Так же, как полезно определить, что такое голосовой помощник, так же полезно понять, чем голосовой помощник не является. Во-первых, голосовые помощники не оснащены искусственным интеллектом, который показан в научной фантастике. В отличие от «Некста» из одноименного сериала, сегодняшние голосовые помощники не способны ни думать, ни чувствовать, да и никогда не смогут.

Еще одно заблуждение — голосовые помощники всегда слушают. Большинство голосовых помощников, таких как Алиса и Google Assistant, начнут слушать и записывать звук только тогда, когда они слышат их пробуждающее слово «Привет Алиса» или «OK Google». Кроме того, при обнаружении пробуждающего слова и при потоковой передаче звука в облако для обработки загорается свет или индикатор.

Точно так же голосовые помощники не могут записывать все ваши разговоры, хотя некоторые сохраняют записанные команды для улучшения своих услуг (функция, которую пользователи могут легко отключить).

Устранение подобных заблуждений может показаться глупым, но многие люди по-прежнему избегают использования голосовых помощников из соображений конфиденциальности. Согласно недавнему опросу, 22% опрошенных выходят из комнаты или понижают голос, чтобы их умный помощник не мог слушать их разговоры. А 48% считают, что их голосовой помощник все время слушает.

По мере того как использование виртуальных помощников и устройств умного дома становится все более популярным, люди (надеюсь) научатся верить, что домашние технологии не шпионят за ними. Конечно, доверие надо заслужить. Производители должны вкладывать больше ресурсов в разработку более высоких стандартов безопасности, и они должны продолжать обучать потребителей по мере совершенствования технологий.

Мы увидели только начало того, насколько мощными и полезными виртуальные помощники могут быть в нашей повседневной жизни. Было бы обидно, если бы наивысший потенциал этой технологии не был реализован из-за проблем с конфиденциальностью и недопонимания того, как технология на самом деле работает.

Популярные голосовые помощники

Распознавание речи и машинное обучение значительно улучшились с момента своего скромного зарождения почти 70 лет назад. Технология расширилась и превратилась в голосовых помощников, которые используются в интеллектуальных устройствах по всему миру.

Вот список самых узнаваемых и популярных голосовых помощников, доступных сегодня

Alexa от Amazon

Amazon Alexa был выпущен вместе с Echo в 2014 году и приобрел широкую популярность. Это в значительной степени связано с многочисленными устройствами для умного дома, предлагаемыми гигантом онлайн-торговли. Alexa может отвечать на вопросы пользователей, воспроизводить музыку или аудиокниги по запросу и выполнять повседневные задачи, например составлять списки дел или сообщать об изменении погоды.

Alexa от Amazon

Чтобы получить доступ к этим функциям (среди многих других), пользователям просто нужно произнести пробуждающее слово «Алекса», а затем запрос. Alexa может получать доступ к сторонним сервисам и устройствам и управлять ими с помощью программных приложений, которые Amazon называет «навыками». В магазине Alexa Skills доступно более 70 000 навыков Alexa, и это число постоянно растет.

Почти все устройства для умного дома на рынке совместимы с Alexa или уже имеют встроенную функцию Alexa. Это дает пользователям большую гибкость при проектировании и создании умной домашней системы автоматизации и безопасности.

Google Ассистент

Google Assistant, выпущенный в 2016 году, представляет собой инновационный голосовой помощник, созданный на основе собственной технологии искусственного интеллекта Google.

Это не первая попытка Google создать голосового помощника. Google Now, который первоначально дебютировал еще в 2012 году, был создан в ответ на выпуск Siri от Apple. Хотя Google Now мог отвечать на простые вопросы, он не мог участвовать в двустороннем разговоре, что является одной из областей, в которых Google Assistant выделяется среди других голосовых помощников.

Google Assistant можно найти как функцию на всех флагманских устройствах Google, включая Google Home Hub, интеллектуальную колонку Google Home и телефоны Google Pixel. Он также доступен в виде приложения для устройств под управлением операционной системы Android или iOS.

В 2016 году Google запустил Actions on Google, платформу, которая позволяет разработчикам создавать приложения для Google Assistant. Google предоставляет направление действий в Интернете или через свое приложение на Android или iOS. Каталог приложений может похвастаться более чем 1 миллионом действий, доступных для настройки взаимодействия с Ассистентом.

В 2017 году Google выпустила комплект для разработки программного обеспечения, чтобы предоставить сторонним разработчикам возможность создавать свои собственные устройства, которые может запускать Google Assistant. Благодаря бесчисленным сторонним приложениям и множеству устройств, предлагающих интеграцию с Google Assistant, вы можете быть уверены, что найдете множество способов воспользоваться преимуществами этого голосового помощника.

Siri от Apple

Первоначально Siri от Apple была представлена ​​на iPhone 4S в 2011 году. Прежде чем появиться в качестве приложения для смартфонов, Siri начиналась как ответвление другого проекта, финансируемого DARPA, под названием Cognitive Assistant that Learns and Organizes (CALO). Некоммерческий исследовательский институт SRI International взял разработки из проекта CALO и начал работу над первым виртуальным персональным помощником.

По мере продолжения прогресса члены команды SRI в конечном итоге сформировали новую компанию под названием Siri, Inc. Эта компания была приобретена Apple в 2010 году, и Siri была интегрирована как стандартная функция операционной системы Apple iOS.

Сегодня Siri может выполнять такие задачи, как навигация, поиск в Интернете, напоминания о событиях, настройка параметров устройства и многое другое. Голосовой помощник теперь доступен на таких устройствах Apple, как iPad Pro, HomePod и Apple Watch.

С выпуском Apple HomeKit в 2014 году энтузиасты умного дома теперь могут управлять своими устройствами домашней автоматизации с одного центрального устройства iOS. А с Siri на борту функции и задачи можно выполнять с помощью серии голосовых команд.

Кортана от Microsoft

Кортана — это цифровой голосовой помощник Microsoft. Первоначально он был разработан для Windows Phone 8.1 и теперь доступен с операционной системой Windows 10. С момента ее появления в 2014 году список применений Кортаны расширился, и теперь она присутствует на различных устройствах, от игровой консоли Microsoft Xbox One до наушников Surface с шумоподавлением, а также в операционных системах iOS и Android.

Первоначальная разработка началась в 2009 году, и технология включала в себя несколько личных помощников. Это в конечном итоге привело к созданию нескольких функций Кортаны, таких как:

Записная книжка — Кортана может хранить изученную личную информацию, такую ​​как интересы, любимые места, домашнюю и рабочую информацию и т. д. С помощью этой информации она может предоставлять информацию о дорожном движении, отслеживать посылки, настраивать встречи в календаре и многое другое на основе информации, которую Кортана узнает о вас.

Напоминания — Кортана может устанавливать напоминания на основе времени, местоположения, личных контактов или электронной почты. Например, вы можете настроить Cortana, чтобы напоминать вам купить хлеб в следующий раз, когда вы будете в магазине, или сделать важный телефонный звонок в определенное время, или даже сказать «С Днем Рождения» лучшему другу, когда она в следующий раз позвонит.

Кортана более чем способна выполнять повседневные голосовые задачи, такие как ответы на вопросы, поиск в Интернете, а также распознавание и воспроизведение музыки. Кортана также имеет растущее количество сторонних навыков (аналогично навыкам Алексы).

Похоже, что Microsoft переориентирует Кортану для очень разных вариантов использования. Согласно последним сообщениям, команда Cortana осознала, что она отстает от Alexa и Google Assistant, когда дело доходит до функций и поддерживаемых устройств. Кортана быстро переходит на сервис, который соединяет пользователей с облачными сервисами Microsoft 365 через Alexa, Google Assistant и другие приложения для Android или iOS.

Хотя нам еще предстоит увидеть, где этот новый подход приведет к Кортане, есть вероятность, что это изменение вдохнет новую жизнь в когда-то истощающегося голосового помощника.

Умные часы с голосовым помошником

Биксби от Samsung

Голосовой помощник Samsung Bixby, выпущенный в 2017 году вместе с Samsung Galaxy S8 и S8 +, является одним из новых вариантов, доступных на рынке. Несмотря на свою молодость, Bixby получил широкое распространение среди пользователей Samsung. Подобно тому, как Google Assistant был перезагрузкой голосового помощника Google Now, Bixby от Samsung представляет собой перезагрузку S Voice, оригинального голосового помощника Samsung, выпущенного в 2012 году.

Samsung применила интересный подход, представив несколько сервисов, связанных с Bixby. В дополнение к Bixby Voice, как называется голосовой помощник, другие службы включают Bixby Vision, которая обеспечивает функциональность дополненной реальности, и Bixby Home, которая позволяет создавать умные дома на основе семейства услуг Bixby.

Bixby Voice предназначен для пользователей Samsung для выполнения задач, аналогичных тем, что может выполнять личный помощник. К ним относятся бронирование, получение персонализированной информации (обновления погоды, напоминания о встречах, новости и т. д.), а также выполнение основных действий, таких как начало телефонных звонков или редактирование фотографии, с помощью голосовых команд.

Одна уникальная функция выделяет Биксби среди остальных голосовых помощников. Биксби может запоминать отдельные голоса, что позволяет ему настраивать ответы на вопросы в зависимости от того, кто спрашивает. Как заявляет Samsung, Bixby может учиться, развиваться и адаптироваться к своим пользователям.

IBM Watson

В отличие от других голосовых помощников, IBM Watson — это компьютерная система вопросов / ответов, способная ответить практически на любой вопрос, который ей задают, благодаря успеху проекта IBM DeepQA. IBM Watson не так известен, как другие упомянутые голосовые помощники, но наибольшую известность в поп-культуре получил благодаря победе в игровом шоу Jeopardy! в 2011.

В то время как другие голосовые помощники основаны на базовой технологии искусственного интеллекта, программное обеспечение и системы, лежащие в основе IBM Watson, намного надежнее. Передовые методы информатики, такие как поиск информации, представление знаний, автоматизированное рассуждение и машинное обучение, демонстрируются благодаря потрясающей способности IBM Watson быстро и с высокой степенью точности отвечать на сложные вопросы.

Однако IBM Watson способна не только выигрывать игровые шоу. В 2014 году была сформирована группа IBM Watson Group, цель которой — предлагать услуги, основанные на впечатляющей вычислительной мощности Watson, предприятиям и некоммерческим организациям во всех отраслях. Эти услуги включают машинное обучение, обработку естественного языка, визуальное распознавание и языковой перевод.

Как видите, разнообразие функций и задач, которыми могут управлять голосовые помощники, кажется бесконечным. То, что когда-то было возможно только при использовании мэйнфреймов огромных размеров, теперь может быть выполнено на смартфоне в ладони. Я надеюсь, что информация, представленная в этой статье, побудит вас использовать преимущества голосовых помощников в повседневной жизни.