Когда мы читаем про себя, то не произносим никаких звуков. Тем не менее наши голосовые мышцы все равно двигаются, хоть и не так заметно, как в случае чтения вслух. Недавно специалисты из Калифорнийского университета (Беркли) разработали алгоритм, который может считывать эти мышечные сокращения.
В самой идее считывания речи при отсутствии звука, собственно, нет ничего нового. Ведь способны же глухонемые читать по губам! Да, здесь задействованы несколько иные механизмы, но понять суть прочитанного все-таки можно.
Процесс сокращения мышц при чтении про себя носит название «субвокализация». И в принципе можно расшифровывать эти движения при помощи электромиографии – метода, позволяющего регистрировать электрическую активность мышц, прикрепив к лицу и шее чтеца электроды.
Но увы, пока такие системы довольно несовершенны. Так, интерфейсы для распознавания субвокализации, существующие на сегодняшний день, способны превращать беззвучную речь только в текстовые файлы.
Американские ученые решили пойти дальше и добиться аудиозвучания. Они обучали искусственный интеллект на трех типах данных: это аудиозаписи слышимой речи и активность мышц в двух случаях – когда человек говорит или же читает про себя.
На первом этапе алгоритм находит оптимальное соответствие между двумя исходными сигналами, один из которых связан со слышимой, а другой – с неслышимой речью. На втором этапе он преобразует слышимую речь в неслышимую. Это необходимо для обучения нейросети, которая в свою очередь получает на вход не три сигнала, а всего один – электромиограмму неслышимой речи.
Для этого используется рекуррентная нейросеть с долгой краткосрочной памятью. Данные, полученные на выходе из нее, передаются в другую нейросеть – WaveNet, которая наконец декодирует их в обычную аудиозапись человеческого голоса.
В процессе обучения инженеры собрали датасет из 20 часов записи как слышимой, так и беззвучной речи, представленной в виде трех упомянутых типов данных. После того как алгоритм прошел обучение, разработчики проверили, насколько понятен смысл сгенерированных записей.
Они учитывали вероятность погрешности – совокупность слов, которые могли быть искажены, отсутствовали или являлись лишними. Их количество было поделено на общий объем текста.
В итоге если нужно было распознать простые фразы, даты или числа, то для полноценной нейросети вероятность ошибки составила 3,6%, а для той, которой предлагалась лишь слышимая речь, – 88,8%. Для сложных фраз, например отрывков из книг, это соотношение равнялось 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.
Где бы такая методика могла найти применение? Ну, прежде всего в криминалистике. Например, вам нужно проследить за человеком, читающим записку или сообщение, которые вы не можете увидеть. С помощью специального приложения вы легко сможете узнать содержание текста.
Кстати, уже существуют технологии, позволяющие считывать даже не слова, а мысли! Так, в 2008 году корпорация NeuroSky выпустила устройство, работавшее с помощью функциональной магнитно-резонансной томографии.
Компьютер «обучили» с высокой точностью распознавать 60 мозговых шаблонов, связанных с существительными. Также он продемонстрировал способность распознавать слова, изображенные визуально на картинках.
В 2010 году «считыватель мозговых волн» был впервые внедрен в мобильный телефон. Он определял, кому именно хочет позвонить пользователь, и выводил на экран номер нужного абонента. Правда, при этом приходилось совершать небольшое физическое движение, скажем, подмигивать аппарату…
Еще одна разработка, появившаяся в 2013 году, позволяла считывать из мозга музыкальные композиции Бетховена и проигрывать их.
Несколько лет назад специалисты Медицинского центра Олбани (США) и лаборатории Cognitive Systems Lab Технологического института Карлсруэ (Германия) разработали технологию, позволяющую расшифровывать сигналы головного мозга и трансформировать их в текст.
Система Brain-to-Text была опробована на семи добровольцах, проходивших в клинике курс лечения от различных неврологических недугов, в том числе и эпилепсии. В ходе эксперимента участников просили читать вслух громким голосом текст, который представлял собой ограниченный набор определенных слов. В процессе чтения сигналы, поступающие от мозга, считывались компьютером с помощью ECoG-электродов, расположенных напротив лобных и боковых областей мозговой коры.
Затем компьютер анализировал их, используя специальные аналитические алгоритмы, и таким образом была получена наиболее вероятная последовательность сигналов, соответствующих тем или иным словам. Еще один алгоритм преобразовывал их в текстовой формат.
Правда, точность распознавания оставляла желать лучшего. Если пациент произносил слова достаточно четко, средняя погрешность составляла около 25%. Если же речь была нечеткой или неправильной, число ошибок увеличивалось до совершенно неприемлемого результата – 50%.
Между тем авторы разработки объясняют столь высокий процент ошибочного распознавания тем, что в исследовании использовалось обычное программное обеспечение, а не специализированные системы, «заточенные» именно под интерпретацию мозговых импульсов. Так что первоочередной целью сейчас является создание таких систем.
Если удастся разработать технологию, которая сможет распознавать «мысленную» или «беззвучную» речь с высокой точностью, это позволит наладить полноценное общение с людьми, которые не могут говорить или говорят плохо в силу различных причин, например с глухонемыми, заиками, косноязычными или теми, кто перенес инсульт…
Подобные системы могут найти применение и в других областях – той же криминалистике, например. Хотя не исключено, что придется решать проблему, насколько этично читать чужие мысли…
Лада КОВАЛЕНКО
Комментарии