Профессионалам - профессиональную рассылку!
Подпишитесь, чтобы получать актуальные новости и специальные предложения от «Учительской газеты», не выходя из почтового ящика
Мы никому не передадим Вашу личную информациюКогда мы читаем про себя, то не произносим никаких звуков. Тем не менее наши голосовые мышцы все равно двигаются, хоть и не так заметно, как в случае чтения вслух. Недавно специалисты из Калифорнийского университета (Беркли) разработали алгоритм, который может считывать эти мышечные сокращения.
В самой идее считывания речи при отсутствии звука, собственно, нет ничего нового. Ведь способны же глухонемые читать по губам! Да, здесь задействованы несколько иные механизмы, но понять суть прочитанного все-таки можно.
Процесс сокращения мышц при чтении про себя носит название «субвокализация». И в принципе можно расшифровывать эти движения при помощи электромиографии – метода, позволяющего регистрировать электрическую активность мышц, прикрепив к лицу и шее чтеца электроды.
Но увы, пока такие системы довольно несовершенны. Так, интерфейсы для распознавания субвокализации, существующие на сегодняшний день, способны превращать беззвучную речь только в текстовые файлы.
Американские ученые решили пойти дальше и добиться аудиозвучания. Они обучали искусственный интеллект на трех типах данных: это аудиозаписи слышимой речи и активность мышц в двух случаях – когда человек говорит или же читает про себя.
На первом этапе алгоритм находит оптимальное соответствие между двумя исходными сигналами, один из которых связан со слышимой, а другой – с неслышимой речью. На втором этапе он преобразует слышимую речь в неслышимую. Это необходимо для обучения нейросети, которая в свою очередь получает на вход не три сигнала, а всего один – электромиограмму неслышимой речи.
Для этого используется рекуррентная нейросеть с долгой краткосрочной памятью. Данные, полученные на выходе из нее, передаются в другую нейросеть – WaveNet, которая наконец декодирует их в обычную аудиозапись человеческого голоса.
В процессе обучения инженеры собрали датасет из 20 часов записи как слышимой, так и беззвучной речи, представленной в виде трех упомянутых типов данных. После того как алгоритм прошел обучение, разработчики проверили, насколько понятен смысл сгенерированных записей.
Они учитывали вероятность погрешности – совокупность слов, которые могли быть искажены, отсутствовали или являлись лишними. Их количество было поделено на общий объем текста.
В итоге если нужно было распознать простые фразы, даты или числа, то для полноценной нейросети вероятность ошибки составила 3,6%, а для той, которой предлагалась лишь слышимая речь, – 88,8%. Для сложных фраз, например отрывков из книг, это соотношение равнялось 74,8 к 95,1 при проверке человеком и 68 к 91,2 при проверке системой распознавания речи Mozilla DeepSpeech.
Где бы такая методика могла найти применение? Ну, прежде всего в криминалистике. Например, вам нужно проследить за человеком, читающим записку или сообщение, которые вы не можете увидеть. С помощью специального приложения вы легко сможете узнать содержание текста.
Кстати, уже существуют технологии, позволяющие считывать даже не слова, а мысли! Так, в 2008 году корпорация NeuroSky выпустила устройство, работавшее с помощью функциональной магнитно-резонансной томографии.
Компьютер «обучили» с высокой точностью распознавать 60 мозговых шаблонов, связанных с существительными. Также он продемонстрировал способность распознавать слова, изображенные визуально на картинках.
В 2010 году «считыватель мозговых волн» был впервые внедрен в мобильный телефон. Он определял, кому именно хочет позвонить пользователь, и выводил на экран номер нужного абонента. Правда, при этом приходилось совершать небольшое физическое движение, скажем, подмигивать аппарату…
Еще одна разработка, появившаяся в 2013 году, позволяла считывать из мозга музыкальные композиции Бетховена и проигрывать их.
Несколько лет назад специалисты Медицинского центра Олбани (США) и лаборатории Cognitive Systems Lab Технологического института Карлсруэ (Германия) разработали технологию, позволяющую расшифровывать сигналы головного мозга и трансформировать их в текст.
Система Brain-to-Text была опробована на семи добровольцах, проходивших в клинике курс лечения от различных неврологических недугов, в том числе и эпилепсии. В ходе эксперимента участников просили читать вслух громким голосом текст, который представлял собой ограниченный набор определенных слов. В процессе чтения сигналы, поступающие от мозга, считывались компьютером с помощью ECoG-электродов, расположенных напротив лобных и боковых областей мозговой коры.
Затем компьютер анализировал их, используя специальные аналитические алгоритмы, и таким образом была получена наиболее вероятная последовательность сигналов, соответствующих тем или иным словам. Еще один алгоритм преобразовывал их в текстовой формат.
Правда, точность распознавания оставляла желать лучшего. Если пациент произносил слова достаточно четко, средняя погрешность составляла около 25%. Если же речь была нечеткой или неправильной, число ошибок увеличивалось до совершенно неприемлемого результата – 50%.
Между тем авторы разработки объясняют столь высокий процент ошибочного распознавания тем, что в исследовании использовалось обычное программное обеспечение, а не специализированные системы, «заточенные» именно под интерпретацию мозговых импульсов. Так что первоочередной целью сейчас является создание таких систем.
Если удастся разработать технологию, которая сможет распознавать «мысленную» или «беззвучную» речь с высокой точностью, это позволит наладить полноценное общение с людьми, которые не могут говорить или говорят плохо в силу различных причин, например с глухонемыми, заиками, косноязычными или теми, кто перенес инсульт…
Подобные системы могут найти применение и в других областях – той же криминалистике, например. Хотя не исключено, что придется решать проблему, насколько этично читать чужие мысли…
Лада КОВАЛЕНКО
Подпишитесь, чтобы получать актуальные новости и специальные предложения от «Учительской газеты», не выходя из почтового ящика
Мы никому не передадим Вашу личную информацию
Для добавления комментария вы должны быть авторизированы.