Голосовые помощники доклад по информатике

Обновлено: 04.07.2024

О них сегодня многие говорят, чуть меньше — их используют и совсем мало кто точно знает, что они из себя представляют. Product owner Calltouch Ксюша Федоринина рассказала о том, как изменилась сфера применения голосовых помощников.

Современные технологии делают нашу жизнь проще. Ещё в начале 2000-х мы пользовались кнопочными мобильными телефонами, в интернет выходили только с компьютеров и даже не мечтали о том, чтобы заказывать такси или доставку еды в офис буквально в один клик. За прошедшие 20 лет смартфон стал универсальным инструментом для решения многих задач, и то, что раньше было недоступно, сегодня никого не удивляет.

Имена Siri и Алиса сегодня у всех на слуху, технология постоянно совершенствуется и охватывает всё новые сферы, и мы как компания, работающая на IT-рынке, решили проследить историю развития голосовых помощников.

Что под капотом у голосовых помощников

Голосовые помощники работают на базе технологии синтеза и распознавания речи, а под капотом у них движок, состоящий из нейросети, который обучают различным сценариям диалога, или платформа с набором правил.

Стоимость разработки голосового помощника зависит от его функциональности. Базовый набор, позволяющий решению озвучивать справочную информацию и решать заданные задачи, обойдётся компании в несколько миллионов рублей. Разработка более умных решений потребует более значительных затрат.

Голосовые помощники для решения бытовых задач

Есть и другие примеры: Microsoft разработал голосовой помощник Cortana, Samsung – Bixby.

Но на самом деле, запустив Siri, Apple не открыла Америку: история голосовых помощников началась задолго до 2011 года. Уже в 1962 году IBM представила решение Shoebox, которое умело распознавать 16 слов и десять цифр (от 0 до 9). А решение Harpy, созданное учёными университета Карнеги – Меллон в 1970-х, распознавало уже 1011 слов, что соответствует словарному запасу трёхлетнего ребёнка. В 1993 году Apple выпустила Macintosh с технологией PlainTalk, а в апреле 1997 года Dragon представила решение, позволяющее превращать в текст до 100 слов в минуту.

Пока пользователи смартфонов с упоением общались с Siri, Google Assistant и другими голосовыми помощниками, компании разрабатывали подобные решения для умного дома.

В ноябре 2014 года Amazon представила смарт-динамик Alexa. Через два года, в ноябре 2016-го, подтянулась Google с Google Home, а в феврале 2018 года на этот рынок вошла и Apple, представив Apple HomPod.

Подобные устройства сегодня можно увидеть и в отелях. Там смарт-динамики позволяют управлять освещением в номере, а также делать в номер заказы.

А что в России?

На нашем рынке голосовых помощников безусловное лидерство принадлежит Алисе от Яндекса. Он был запущен в октябре 2017 года и сегодня не только интегрирован в сервисы компании, но и используется в устройствах других производителей: смарт-колонках, умных часах, наушниках.

Голосовые помощники для решения задач бизнеса

Например, голосовые помощники очень полезны во время коллективных обсуждений. Участникам не нужно отвлекаться на то, чтобы найти необходимые данные или позвонить коллеге, — это можно поручить голосовому помощнику. Также он может делать заметки и записывать все разговоры, переводя их в текст. Всё это позволяет сотрудникам сосредоточиться на теме собрания, не отвлекаясь на подобные моменты.

Кроме того, такие решения незаменимы для обеспечения высокого уровня клиентского сервиса, а это сегодня must-have для любого бизнеса. И мы в Calltouch постоянно совершенствуем это направление.

Недавно в продукте Calltouch Предикт мы реализовали такую фичу, как перевод разговоров в текст. Это открыло перед нашими партнёрами новые возможности. Например, можно быстро проанализировать запросы клиентов, работая над запуском нового продукта, или (не менее быстро) оценить эффективность сотрудников колл-центра, узнав, доносят ли они до клиентов необходимую информацию. Дополнительный бонус: звонки от мужчин и от женщин в тексте подсвечиваются разными цветами, так что на то, чтобы понять, кто чаще звонит в компанию, потребуется буквально несколько секунд. Отталкиваясь от этой информации, можно корректировать объявления и настраивать параметры таргетированной рекламы и в конечном итоге более эффективно распределять рекламный бюджет. Подробнее об этом мы рассказывали здесь.

Будущее голосовых помощников

Технологии развиваются очень быстрыми темпами и становятся всё умнее, поэтому, опираясь на прогнозы аналитиков, можно с уверенностью сказать, что со временем проникновение голосовых помощников будет только повышаться. Люди быстро привыкают к вещам, которые предоставляют им принципиально новый уровень комфорта и удобства и открывают новые горизонты.


В статье представлена информация о новой информационной технологии в Интернете — голосовой помощник. Исследованы формы, виды, особенности и характеристики голосовых помощников, представляемые разными компаниями. Определен голосовой помощник, как новая информационная технология современного состояния, как реального, так и виртуального мира. Осуществлено исследование голосового помощника, на предмет достоинств и недостатков настоящей информационной технологии.

Ключевые слова: голосовой помощник, Интернет, информационная безопасность, пользователь, гонка вооружений, звук, искусственный интеллект, человеческая речь

The article presents information about a new information technology on the Internet — voice assistant. The forms, types, features and characteristics of voice assistants presented by different companies are studied. The voice assistant is defined as a new information technology of the current state of both the real and virtual world. A study of the voice assistant has been carried out to determine the advantages and disadvantages of this information technology.

Keywords: voice assistant, Internet, information security, user, arms race, sound, artificial intelligence, human speech

На протяжении десятилетий человечество мечтало о голосовом интерфейсе, описанном в научной фантастике. И вот в наше время, благодаря новым информационным технологиям и Интернету, виртуальные голосовые помощники появились и набирают популярность среди пользователей по всему миру.

Для многих компаний голосовые помощники стали служить не просто точкой контакта с потребителями, а дополнительным новым каналом коммуникации. Становится возможным вести необходимей (устный) диалог с человеком (пользователем), что способствует получению дополнительной информации о нем, а также созданию нового опыта взаимодействия. [1]

Актуальность изучаемого вопроса состоит в том, что интеграция голосовых помощников активно внедряется в разные виды жизнедеятельности человека или бизнеса и постепенно становиться неизменной составляющей высокоэффективных и новейших интерактивно-маркетинговых коммуникаций. [2]

В этой подсистеме сначала делается запрос к базе данных сигналов, чтобы распознать команду. Если введенные и сохраненные сигналы совпадают, обнаружение считается успешным, и команда передается на исполняющее устройство, которое выполняет определенное действие. Если голосовая команда не распознается, система возвращается к началу — вводу голосовой команды, и алгоритм действий повторяется снова до получения положительного результата, то есть до тех пор, пока голосовая команда не будет распознана. [4]

Таким образом можно сказать, что голосовой помощник — это современный сервис на базе искусственного интеллекта, распознающий человеческую речь. Такие помощники имеют все шансы выполнять различные действия в ответ на голосовые команды.

Чаще всего голосовые помощники применяются в смартфонах, умных колонках, а помимо прочего в некоторых современных браузерах. В настоящее время существует сразу несколько общих голосовых помощников, у каждого из которых есть свои сильные и слабые стороны. [5]

Так, например, домашние голосовые помощники — это небольшие колонки, которые можно установить в любом удобном для пользователя месте. Для мобильных устройств используются специальные приложения, которые нужно загрузить на устройство.

Имеет положительные стороны:

Также обладает и отрицательными сторонами:

  1. Помощник не всегда предоставляет четкие ответы;
  2. Пользователи часто получают шуточные ответы вместо точного ответа.

Отрицательные стороны: 1. Необходимость языковой настройки; 2. Предустановлен англоязычный языковой пакет.

Имеет положительные стороны: 1. Четкость звука; 2. Быстрота распознавания команды; 3. Простота управления.

В свою очередь необходимо обозначить, что помощник занимает небольшой объем памяти, по этой причине никак не повлияет на скорость функционировать персонального компьютера.

Положительные стороны: 1. Быстрота поиска запрашиваемой информации; 2. Возможность текстового набора; 3. Запуск приложений, присутствующих на персональном компьютере.

Отрицательные стороны: пользователями и специалистами минусы не выявлены.

Положительные стороны: 1. Простота установки. 2. Применяется на компьютерах и телефонах.

Отрицательные стороны: 1. Пользователями и специалистами минусы не выявлены.

Положительные стороны: 1. Высокая скорость обработки запросов; 2. Применяется на компьютерах и телефонах; 3. Максимальная простота установки на устройство.

Отрицательные стороны: может применяться только при наличии гражданства Российской Федерации.

Наряду с представленной информацией хочу отметить, что голосовые помощники — это наиболее часто используемые смартфоны.

Посредством приложений пользователи имеют все шансы открывать дополнительные вкладки и использовать мобильное устройство в режиме громкой связи.

Положительные стороны: 1. Высокая скорость работы; 2. Быстрый поиск необходимой информации.

Отрицательные стороны: формирует слишком краткие ответы на запросы.

Положительные стороны: 1. Простота управления; 2. Возможность самостоятельно формировать функции; 3. Возможность работы без голосовой команды.

Отрицательные стороны: отсутствует бесплатный формат использования.

Для домашнего использования нужно купить специальное устройство и с его помощью можно открывать жалюзи, включать свет, музыку и открывать двери. После установки устройство активируется и реагирует исключительно на определенные голоса.

Положительные стороны: 1. Универсальное применение; 2. Функционирует быстро; 3. Может открывать приложения.

Отрицательные стороны: пользователями и специалистами минусы не выявлены.

Перечисленные выше голосовые помощники чрезвычайно популярны.

Однако, нельзя не отметить и специальных голосовых помощников от отечественных разработчиков:

Таким образом необходимо отметить, что данные помощники активно входят в нашу жизнь и с каждым днем все больше людей используют их повседневной жизни.

Но… выбирая голосового помощника, нужно учитывать функции, значимые для пользователя. Каждый голосовой помощник имеет собственный индивидуальный функционал, который систематически обновляется. При выборе правильной интеллектуальной системы очень важно учитывать индивидуальные критерии. [6]

В этой связи интеграция голосовых помощников в разнообразные устройства в будущем, может привести к тому, что маркетологам будет нужно скорректировать подход к общению с пользователями, сделать его более персональным, но решить данную задачу можно будет только в том случае, если компании найдут способ качественно защищать голосовых ассистентов от мошенничества. [7]

Однако, даже уже сейчас, созданные современные голосовые помощники позволили заметно сократить временные затраты на выполнение простых, рутинных ежедневных задач и это показали представленные выше исследования.

Как, пример, можно представить отдельные отрасли экономики, где они нашли применение.

В общемировом масштабе самые современные голосовые помощники постепенно становятся неотъемлемой частью команды (компании) именно в тех нишах розничной торговой сети, которые характеризуются быстрым повторным использованием клиентских заказов.

Наряду с этим, можно сказать, что очевидным является и тот факт, что узкоспециализированные ниши, включая реализацию инженерного оборудования, еще долго останутся на так называемой технологической периферии. Такие направления еще не вышли на массовый формат онлайн-продаж, не говоря уже об использовании голосовых помощников.

Таким образом необходимо отметить, что голосовые помощники в будущем будут активно развиваться, модернизироваться и совершенствоваться, найдут новые сферы применения, но один важный аспект у них будет все активней и активней развиваться, т. е. как только голосовой помощник распознает речь и переведет ее в текстовый формат, он должен понять, какой ответ ожидает о него пользователь.

Для каждого намерения есть специальный шаблон, который выделяет полезную информацию из того, что уже сказал пользователь. Это называется семантическим теггером. Задавая вопросы, люди крайне редко говорят всю информацию, на которую им нужно ответить, поэтому голосовой помощник должен заполнить пробелы самостоятельно.

К примеру, чтобы представить информацию о погоде в конкретном городе человеку (пользователю), помощник может задать пользователю необходимые уточняющие вопросы или получить всю необходимую информацию сам, если на устройстве включена опция геолокации, что является важным преимуществом системы.

Исходя из этого, голосовые помощники способны узнавать что-то принципиально отличное от той конкретики, которую предлагают непосредственно разработчики. В ситуациях, когда сам голосовой помощник не знает о существовании определенных выражений, он ответит на них совершенно бездумно, чисто случайными фразами, потому что указанные такие слова ему останутся неизвестными.

Безусловно, на первый взгляд преимущества голосовых помощников вполне очевидны. В настоящее время люди хотят немедленно получать информацию в Интернет-пространстве. Ритм и особая динамика жизни не позволяют тратить много времени на текстовые интерфейсы, а справочные службы финансовых учреждений, государственных структур, а также самых востребованных телефонных сервисов в современных реалиях переполнены пользовательскими обращениями. В этом контексте голосовые помощники способны в некотором роде спасти положение и решить определенные проблемы в сложившейся ситуации.

Обсуждения голосовых и разговорных интерфейсов, как правило, охватывают сразу несколько систем. Начиная с ботов, которые отвечают на простейшие вопросы или шутят только наугад, до сложных систем, используемых на промышленном уровне.

Еще одной особенностью на что необходимо обратить внимание, это то, что компании, у которых есть достаточные ресурсы, требуемые знания и необходимые навыки, чтобы сделать значительный шаг вперед и добиться огромных изменений в развитии голосовых помощников, как не странно, совсем не заинтересованы в таком шаге. Голосовые интерфейсы и голосовые помощники представляют собой инновации, которые кардинально изменяют сложившееся на данный момент состояние дел. [8]

Пользовательское ожидание предполагает, что человек в обозримом будущем сможет естественным образом выражать свои желания, и система будет их полностью понимать. По этой причине система обязательно должна будет адаптироваться к человеку, а не наоборот. Таким образом, создание наиболее современных и перспективных голосовых помощников следует рассмотреть, скорее всего, с точки зрения понимания общечеловеческих характеристик. [9]

Тем не менее, нельзя не принимать во внимание и опасности, угрозы, которые таит в себе современная технология в виде голосовых помощников. Широкое распространение голосовых помощников и развитие Интернета вещей поднимают вопрос безопасности для всех тех, кто активно пользуется этими современными технологиями. [10]

Многие владельцы голосовых помощников и домашних умных динамиков, легко распознающих команды, довольно серьезно обеспокоены тем, какой объем информации получают указанные устройства, записывая разговоры. Несмотря на тот факт, что сама по себе зашифрованная речь, как правило, сохраняется именно на серверах разработчика, микрофон можно отключить, а любые записи легко удаляются ручным способом, но рассматриваемая технология ещё очень, очень далека от совершенства и что от нее ждать не всегда ясно и понятно.

Данного мнения придерживаются разные эксперты, которые говорят, что в будущем технические средства будут развиты таким образом, что они легко смогут определять голос конкретного человека и вести список тех, кто обладает доступом к устройству.

Соответственно, голосовые помощники, многие пользователи сейчас характеризуют, как самый настоящий кошмар для конфиденциальности, поскольку такими системами с каждым годом обрабатывается все больше и больше информации из повседневной жизни каждого пользователя. Однако на рейтинг продаж подобное пользовательское отношение если и повлияло, то очень незначительно. Современные голосовые пользователи бьют все рекорды популярности, многие пользователи считают их наличие не только удобным, но и перспективным, очень престижным. [11]

Существуют и иные проблемы, напрямую взаимосвязанные сегодня с голосовыми помощниками. Ими может сохраняться больше информации, чем предварительно было запланировано. Помощники должны записывать звуковую дорожку исключительно после того, как они услышат кодовые сигнал от владельца. Однако, зачастую срабатывание происходит при созвучных словах или от работающего телевизора, музыкального проигрывателя, простой разговорной речи, используемой в обиходе.

Кроме прочего, сотрудники в компаниях-разработчиках вполне могут получать доступ к личной, персональной информации любого пользователя.

Неоспоримым является и тот факт, что в современных условиях вполне могут возникать разнообразные конфликты интересов. Так, компании собирают личные данные пользователей, чтобы как можно лучше решать проблемы клиентов. Однако, абсолютно любая собираемая персональная информация может использоваться компаниями не только для себя, но и с целью выгоды определенных партнеров. [12]

По данным экспертов, некоторые сотрудники из крупных компаний разработчиков голосовых помощников, зная определенные коды и технологию работы систем способны узнавать, откуда были совершены звонки на голосовое помощники, и в самые кратчайшие сроки вычислять домашний адрес такого пользователя и другие необходимые (доступные) сведения.

Предполагается, что в самом ближайшем будущем текущий уровень ошибок должен уменьшиться на порядок благодаря новейшим моделям для машинного обучения. Вполне возможно, что у каждого пользователя в обозримом будущем будет свой собственный персональный голосовой помощник с нужным ему голосом.

Основные термины (генерируются автоматически): помощник, голосовой помощник, пользователь, сторона, компания, голосовая команда, информационная технология, система, устройство, голосовой интерфейс.


СОВРЕМЕННЫЕ ПРОБЛЕМЫ ШКОЛЬНОГО ОБРАЗОВАНИЯ




Python. Голосовой ассистент для ПК


Автор работы награжден дипломом победителя II степени

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Актуальность. Изучение структуры и принципов разработки компьютерных приложений не только позволяет расширить знания об интегрированных средах программирования, но способствует активизации образовательной деятельности школьников в различных предметных областях. Полученные навыки и умения в дальнейшем можно применить при разработке обучающих или образовательных приложений.

Изучив возможности алгоритмических языков в области, можно получить неоценимые практические навыки в программировании.

Все вышеперечисленные навыки будут неоценимы при учебе в школе, университете и при поступлении на работу. А созданное приложение будет верным помощником каждому пользователю ПК.

Цель исследования. Изучение и исследование инструментов в области разработки приложений для создания приложений .

Объект исследования – современные программные инструменты, структура, возможности и разработка обучающих приложений для ПК.

Предмет исследования – возможности языка Python в области разработки голосового ассистента.

Задачи исследования:

познакомиться с возможностями использования языка Python , как инструмента разработки интерактивных приложений;

познакомиться со структурой обучающих приложений ;

провести эксперимент по разработке приложения на языке Python ;

проанализировать способы реализации универсальности программы.

ГЛАВА 1. I Этап. Изучение материалов по обозначенной теме

Голосовой помощник — программное обеспечение, позволяющее управлять мобильным устройством или компьютером посредством голосовых команд. Современный голосовой помощник (или "виртуальный ассистент" от англ. "virtual assistant") оказывает реальную помощь в различных областях информационных технологий- поиск информации в Интернете, запуск системных функции и приложения, и при этом выступать в роли виртуального собеседника.

Помимо распознавания голоса, ассистент способен также озвучивать текстовую информацию (например, результаты поиска), "говорить" с человеком или "общаться" с ним в виде текстового чата. Полноценный диалог ни с одним из голосовых помощников, к сожалению, пока невозможен.

На сегодняшний день наблюдается тенденция к закреплению за популярными операционными системами собственных голосовых помощников. Так, на iOS штатным ассистентом является программа Siri, на Android — Google Assistant, на Windows — Cortana. Об этих и некоторых других современных "умных" помощниках и пойдёт речь в статье ниже.

Голосовые ассистенты встроены в компьютеры, планшеты, телефоны, умные часы, умные колонки и даже в автомобили. Диалог с голосовым помощником осуществляется исключительно голосом, без использования рук, не нажимая ни на какие кнопки. Это принципиально новый способ взаимодействия человека и устройства, он довольно похож на общение между людьми.

Но все ли так хорошо как кажется на первый взгляд? Утечка личных и корпоративных тайн в руки недоброжелателей — это раз. Диктуя вслух цифры полученного в SMS кода авторизации или реквизиты банковских карт, когда заполняете онлайн-формы, вы тем самым даете возможность мошенникам.

Голосовой ассистент должен обладать уникальными чертами отличающимся функционалом. Это следует из того, что разработчики используют свои подходы к разработке и разные алгоритмы.

К основным технологиям можно отнести следующие:

активация по голосу (Voice Activation),

автоматическое распознавание речи (Automatic Speech Recognition),

голосовая биометрия (Voice Biometrics), т.е. распознавание пола или возраста говорящего, например женщины, мужчины, детей и т.д., а также диалоговый менеджер (Dialog Manager),

понимание естественного языка (Natural Language Understanding),

Для разработки голосового ассистента необходим соответствующий софт. В своей работе я буду использовать Python .

Pyhton. Pyhton — среда разработки, использует язык программирования Pyhton (начиная с 7 версии язык в среде именуется Pyhton[2], ранее — Object Pascal), разработанный фирмой Borland и изначально реализованный в её пакете Borland Pyhton, от которого и получил в 2003 году своё нынешнее название. Object Pascal по сути является наследником языка Pascal с объектно-ориентированными расширениями.

Pyhton — это среда быстрой разработки, в которой в качестве языка программирования используется язык Pyhton. Язык Pyhton — строго типизированный объектно-ориентированный язык, в основе которого лежит хорошо знакомый программистам Object Pascal.

Pyhton — это комбинация нескольких важнейших технологий:

высокопроизводительный компилятор в машинный код;

– объектно-ориентированная модель компонент;

– визуальное (а, следовательно, и скоростное) построение приложений из программных прототипов;

– масштабируемые средства для построения баз данных.

Основной упор модели в Pyhton делается на то ,чтобы максимально производительно использовать код.. А так же возможность создавать свои собственные объекты.

В стандартную поставку Pyhton входят основные объекты из 270 базовых классов. На этом языке очень удобно писать, как приложения к базам данных, так даже и игровые программы. Если принять во внимание и удобный интерфейс для создания графических оболочек, то можно с уверенностью заявить что язык Pyhton – это очень доступный для понимания, но в то же время и очень мощный язык программирования.

Глава 2. Отбор материалов для эксперимента

В настоящее время можно выделить несколько типов языков программирования. Признаков их классификации служит принадлежность их к одному из стилей: процедурный, функциональный, логический, объектно-ориентированный.

Основная цель ООП – повышение эффективности разработки программ. Идеи ООП оказались плодотворными и нашли применение не только в языках программирования, но и в других областях Computer Science, например, в области разработки операционных систем.

Pyhton – это потомок среды программирования Turbo Pascal. Система визуального объектно-ориентированного проектирования Pyhton позволяет:

Создавать законченные приложения для Windows самой различной направленности.

Быстро создавать профессионально выглядящий оконный интерфейс для любых приложений; интерфейс удовлетворяет всем требованиям Windows и автоматически настраивается на ту систему, которая установлена, поскольку использует функции, процедуры и библиотеки Windows.

Создавать свои динамически присоединяемые библиотеки компонентов, форм, функций, которые потом можно использовать из других языков программирования.

Создавать мощные системы работы с базами данных любых типов.

Формировать и печатать сложные отчеты, включающие таблицы, графики и т.п.

Создавать справочные системы, как для своих приложений, так и для любых других.

Создавать профессиональные программы установки для приложений Windows, учитывающие всю специфику и все требования операционной системы.

Интегрированная среда разработки Pyhton – это среда, в которой есть все необходимое для проектирования, запуска и тестирования создаваемых приложений. Большинство версий Pyhton выпускается в нескольких вариантах: а) стандартная, б) профессиональная версия, в) разработка баз данных предметных областей. Эти варианты различаются, в основном разным уровнем доступа к системам управления базами данных. Последние два варианта являются наиболее мощными в этом отношении. Библиотеки компонентов в различных вариантах практически одинаковы.

Под палитрой компонентов располагается окно формы с размещенными на ней компонентами. Форма является основой почти всех приложений Pyhton. Форму можно понимать как типичное окно Windows. Она обладает теми же свойствами, что и другие окна. В основном поле окна слева находится окно Инспектора объектов, с помощью которого в дальнейшем можно задавать свойства компонентов и обработчики событий. Каждый компонент имеет свой набор свойств, который соответствует назначению этого компонента.

Одним из наиболее важных элементов среды Pyhton является окно Редактора кода. Оно располагается ниже окна формы, обычно при первом взгляде на экран невидимо, т. к. его размер равен размеру формы и окно Выше окна Инспектора объектов расположено окно Дерево объектов, которое отображает структуру компонентов приложения с точки зрения их принадлежности друг к другу.

Программа, создаваемая в среде Pyhton в процессе проектирования приложения, основана на модульном принципе. Главная программа состоит из объявления списка используемых модулей и нескольких операторов, создающих объекты для необходимых форм и запускающих приложение на выполнение. Модульность очень важна для создания надежных и относительно легко модифицируемых и сопровождаемых приложений. Четкое соблюдение принципов модульности в сочетании с принципом скрытия информации позволяет производить модификации внутри любого модуля, не затрагивая при этом остальных модулей и главную программу.

В процессе проектирования Pyhton автоматически создает код головной программы и отдельных модулей. В модули вводятся собственные коды, создавая обработчики различных событий. Но головную программу, как правило, не приходится модифицировать и даже просматривать ее текст (только в исключительных случаях).

Глава 3. Проведение эксперимента

В данной главе кратко опишем алгоритм разработки голосового ассистента для нашего компьютера.

Аналитики, исследующие сервисы чат-ботов и виртуальных ассистентов, обещают рост рынка как минимум 30% в год. В абсолютных цифрах, по состоянию на 2019 год, рынок оценивался более чем в 2 миллиарда долларов в год. Виртуальных голосовых помощников выпустили практически все ведущие мировые IT-компании, а основную работу по их популяризации уже провели Apple, Google и Amazon.

image

В общем, то, что рынок голосовых ассистентов – интересная ниша, сомневаться не приходится. И первая идея, которая приходит в голову – взять любой из доступных сервисов ASR (Automatic Speech Recognition) и TTS (Text To Speech), связать их с конструктором ботов, имеющим поддержку NLU (Natural Language Understanding), и все! Тем более что все это довольно легко и быстро можно реализовать в облачных платформах, таких как Twilio и VoxImplant.

Проблема только в том, что полученный результат будет весьма посредственным. В чем же причина этого? Прежде всего попробуем понять почему совокупность довольно-таки неплохих технологий, собранных вместе дают такой посредственный результат. Это важно, т.к. в реальной жизни клиент всегда будет отдавать предпочтение тому сервису, чей голосовой сервис удобнее, интереснее, умнее и быстрее прочих.

Как работает типичный голосовой ассистент

Прежде всего отметим, что наша речь представляет из себя последовательность звуков. Звук в свою очередь — это наложение звуковых колебаний (волн) различных частот. Волна же, как нам известно из физики, характеризуются двумя атрибутами — амплитудой и частотой.

image


Речевой сигнал

Алгоритм работы ассистента:

Далее происходит выделение фонем, работа с фонетическом алфавитом и в общем много чего еще, включая работу с вариантами произношения, морфологией и семантикой, причем исходя из контекста и статистики. Итогом становится то, что сервис ASR переводит набор фонем в слово.

Выделение набора слов в предложения и целые смысловые фразы, происходит аналогично делению речи на слова – по интервалам между словами. Только в этом случае величина интервала принимается большей, чем в случае деления на слова.

Возникающие проблемы

Несмотря на кажущуюся очевидную правильность реализуемого подхода, в случае голосового ассистента он несет массу проблем. Вот основные из них:

  1. Задержки
  2. Задержки
  3. Задержки

Основная сложность здесь состоит в том, что в указанный интервал времени должно уместиться выполнение следующих действий:

— В каком отделении Банка вам будет удобно забрать готовую кредитную карту?
— На Ленинском проспекте. А кстати, когда оно работает? Там далеко от остановки?

— А-а-а-а… ну-у-у-у…
— Ну, как бы вам сказать, типа того как… э-э-э…
— Сейчас, одну минутку, да-а-а… Надо подумать, сразу так и не скажешь…

Что же делать?

Во-вторых, следует провести оптимизацию по скорости работы всех компонентов системы. Однако, в какой-то момент времени мы обязательно упремся в пределы возможного сокращения задержек и усложнения сценариев обработки естественного языка. Поэтому, к нам приходит понимание, что требуется принципиально изменить подход к реализации голосового сервиса.

    Сервис ASR анализирует речь в потоковом режиме, отдавая на следующий шаг результат по отдельным словам. На выходе данного шага мы всегда имеем одно единственное слово.

  • из набора интентов предыдущей итерации выбирается вариант с наибольшей вероятностью и соответствующий ответ добавляется в выходной буфер;
  • входной буфер сбрасывается и туда заново вносится только это новое слово;
  • делается новый анализ, т.е. снова переходим на шаг 3.

Способы повысить качество работы ассистента

Давайте рассмотрим какие есть методы, что бы еще больше повысить качество работы нашего голосового виртуального ассистента:

Очень желательно выявлять в выходном буфере ответы, которые противоречат друг-другу. В этом случае следует ответ с меньшим приоритетом просто удалять из выходного буфера.

В обычном разговоре двух и более людей, собеседники, как правило довольно точно могут определить эмоциональное состояние друг друга. Причем делается это не только по содержанию используемой лексики, например, факту наличия или отсутствия в речи ругательств, но и по тембру и скорости речи. Будет просто отлично, если ассистент сможет особым образом обслужить рассерженного пользователя.

Особенность реализации бизнес-кейсов

Для ряда сервисов, их реализация в рамках именно голосового ассистента – вообще самое удачное решение. Например, если человек находится в стрессовой ситуации, то ему как правило бывает сложно сконцентрироваться и быстро описать проблему текстом в чате, и он всегда предпочтет все высказать голосом. Это может стать важным критерием при выборе бизнес-кейсов для реализации в рамках виртуального голосового ассистента.

Совершенству нет предела

Важно помнить, что следует избегать ситуаций, когда голосовые команды требуется сопровождать еще какими-либо дополнительными действиями в других интерфейсах. В противном случае это делает голосовой канал нерабочим т.к. нарушается принцип eyes-free, так как надо читать, и hands-free, если надо еще что-то зажимать.

Хорошим стилем реализации голосового виртуального ассистента будет вообще избегать открытых вопросов. Желательно направлять собеседника к конкретным действиям. Особенная ценность появляется там, где ассистент выступает в качестве навигатора или рекомендательной системы. Голосовой ассистент не должен требовать от человека слишком подробной информации. Уточняйте ее по ходу течения разговора.

И на конец, хотелось бы отметить, что персонализация – это, пожалуй, главное, чего не хватает существующим голосовым диалоговым интерфейсам. Без этого невозможно вести более-менее продолжительный диалог. Ассистент должен собирать данные о собеседнике, структурировать и проверять полученную информацию. Важно не терять нить диалога, сохранять и учитывать контекст разговора. Это важно. Иначе ассистент способен будет реализовать только короткие и довольно простые запросы, и, как итог, – это не позволит выйти на по настоящему живой диалог при общении голосового ассистента с пользователем.

Читайте также: