search
main
0

Под беззвучную диктовку

Новинка для людей с речевыми нарушениями

Если вы будете говорить беззвучно, вас никто не услышит. Все сложится иначе, если вы наденете специальные очки, разработанные аспирантом Корнеллского университета (США) Жуйдуном Чжаном. Благодаря оборудованному сонаром гаджету очки EchoSpeech позволяют распознавать речь без звука, лишь по артикуляции лицевых мышц, подобно тому, как это делают глухонемые люди.

Аспирант Жуйдун ЧЖАН разработал необыкновенные очки

 

Когда мы читаем «про себя», то вроде бы не произносим никаких звуков. Тем не менее наши голосовые мышцы все равно двигаются, хоть и не так заметно, как в случае чтения вслух. Этот процесс носит название «субвокализация».

Глухие часто способны читать по губам, но для этого необходимо тренироваться, поэтому большинство слышащих людей этого делать не умеют, разве что они работают сурдопереводчиками. А вот электронное устройство можно при желании обучить таким вещам.

В принципе можно расшифровывать беззвучную артикуляцию при помощи электромиографии – метода, позволяющего регистрировать электрическую активность мышц, прикрепив к лицу и шее чтеца электроды. Но, увы, пока такие системы довольно несовершенны. Так, интерфейсы для распознавания субвокализации, существующие на сегодняшний день, способны преобразовывать беззвучную речь только в текстовые файлы.

Несколько лет назад специалисты из Калифорнийского университета (Беркли) разработали алгоритм, который может «считывать» эти мышечные сокращения и переводить их в аудиозвучание. Они обу­чали искусственный интеллект на трех типах данных: это аудиозаписи слышимой речи и активность мышц в двух случаях – когда человек говорит или же читает про себя.

На первом этапе алгоритм находит оптимальное соответствие между двумя исходными сигналами, один из которых связан со слышимой, а другой – с неслышимой речью. На втором этапе он преобразует слышимую речь в неслышимую. Это необходимо для обучения нейросети, которая в свою очередь получает на вход не три сигнала, а всего один – электромиограмму неслышимой речи. Для этого используется рекуррентная нейросеть с долгой краткосрочной памятью. Данные, полученные на выходе из нее, передаются в другую нейросеть – WaveNet, которая наконец декодирует их в обычную аудиозапись человеческого голоса.

В процессе обучения инженеры собрали датасет из 20 часов записи как слышимой, так и беззвучной речи, представленной в виде трех упомянутых типов данных. После того как алгоритм прошел обучение, разработчики проверили, насколько понятен смысл сгенерированных записей. Они учитывали вероятность погрешности – совокупность слов, которые могли быть искажены, отсутствовали или являлись лишними. Их количество было поделено на общий объем текста. В итоге если нужно было распознать простые фразы, даты или числа, то для полноценной нейросети вероятность ошибки составила 3,6%, а для той, которой предлагалась лишь слышимая речь, – 88,8%. Для сложных фраз, например отрывков из книг, это соотношение равнялось 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.

Но предполагалось, что технология будет применяться в основном для считывания чужой беззвучной речи. Ну, например, в криминалистике. Скажем, вам нужно проследить за человеком, читающим записку или сообщение, которые вы не можете увидеть. С помощью специального приложения вы легко сможете узнать содержание текста.

По иному пути пошел уже упомянутый Жуйдун Чжан из Корнелла. Ранее он уже пытался изобрести нечто подобное, присоединив камеры к беспроводным наушникам. Но формат очков оказался куда удобнее: теперь пользователю не надо вдевать что-то в уши и смотреть в камеру. Динамики и микрофоны уже встроены в гаджет, который применяется как стандартное устройство ввода. При первом использовании требуется калибровка EchoSpeech, позволяющая программе изучить особенности мимики владельца очков. На всю процедуру уходит несколько минут: предположим, пользователю предлагается зачитать несколько чисел. Разработчики уверяют, что по завершении настройки точность распознавания будет достигать 95%.

При использовании очков данные по беспроводному каналу передаются на смартфон, где подвергаются обработке алгоритмами. Одна зарядка обеспечивает гаджету до 10 часов автономной работы. При этом вся информация останется на телефоне, то есть никто посторонний вас «подслушать» не сможет.

Но зачем вообще нужно куда-то транслировать собственную речь, да еще без звука? Ну, например, для управления компьютерными программами, управления музыкальным проигрывателем без помощи рук… Или представьте себе, что вы сидите на концерте, гремит музыка, а вам надо срочно надиктовать сообщение. Письменная коммуникация не всегда бывает удобна. Но EchoSpeech поможет ввести аудиозапись в смартфон, и она будет хорошего качества. В принципе использовать технологию можно везде, где сложно или запрещается громко разговаривать вслух, – в больницах, библиотеках.

Значительным подспорьем станет новинка и для людей с различными речевыми нарушениями, скажем, после инсульта. Они будут беззвучно «наговаривать» фразы на смартфон, а затем голосовой синтезатор воспроизведет их вслух, если это необходимо. В настоящее время Жуйдун Чжан и его коллеги планируют вывести свое ноу-хау на рынок в рамках действующей в Корнеллском университете программы финансирования.

Разумеется, существует вероятность того, что EchoSpeech будет использоваться и в неблаговидных целях – для преступлений или шпионажа. Предположим, чтобы отправить кому-то информацию, не выдавая себя. Поэтому не исключено, что применение таких «умных» очков будет ограничено, по крайней мере, в некоторых ситуациях. Но пока они еще не появились в массовой продаже, прогнозы строить сложно.

Ида ШАХОВСКАЯ

Оценить:
Читайте также
Комментарии

Новости от партнёров
Реклама на сайте