search
main
0

В ИКИТ Сибирского федерального университета создали алгоритм распознавания речи по видео

Магистрант Института космических и информационных технологий (ИКИТ) Сибирского федерального университета Антон Дзюба разработал алгоритм распознавания речи по видео. Об этом сообщили в пресс-службе вуза.

Фото: пресс-служба Сибирского федерального университета

Нейронные сети распознают речь по артикуляции губ в два этапа. Сначала идет поиск лица и выделение области губ в отдельном кадре. Далее последовательность кадров поступает на вход сверточной и рекуррентной нейронных сетей глубокого обучения для распознавания виземы речи.

В пресс-службе отметили, что в ходе экспериментальных исследований использовался набор данных, содержащий 768 различных высказываний, произнесенных различными русскоговорящими спикерами. Тестовыми словами были: «бегу», «пила», «милый», «усы», «вулкан», «банан», «тонуть». Лучшая точность распознавания речи по артикуляции составила 93,7 % для слова «банан», а средняя точность — 68%.

«Визуальное распознавание речи является важнейшей задачей при общении людей с нарушениями слуха», – пояснил Антон Дзюба. Распознавание речи по артикуляции также можно применять и в других областях, не связанных с медициной, в частности, в правоохранительной деятельности, добавил разработчик. «Виземы и фонемы не имеют однозначного соответствия. В русском языке насчитывается 42 фонемы. Из них 6 гласных и 36 согласных. Часто несколько фонем соответствуют одной виземе и выглядят одинаково на лице говорящего человека», – добавил Дзюба. По его словам, в дальнейшем он планирует усовершенствовать алгоритм, повысить точность его работы и расширить количество распознаваемых слов.

Оценить:
Читайте также
Комментарии

Новости от партнёров
Реклама на сайте