Исследователи Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) научились при помощи алгоритмов искусственного интеллекта и «компьютерного зрения» распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжелой техникой.
Сегодня системы, которые способны распознать речь человека (звуковой сигнал) для автоматизированного выполнения команд активно внедряются в самые разные сферы. Обычно их используют люди с травмами конечностей или операторы сложного оборудования, у которых заняты руки.
Ученые разработали приложение для смартфона, которое распознает звучащую речь, и считывает „по губам” слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях.
По словам разработчиков, приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он мог не расслышать.
В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том какие данные (видео или звук, или оба) при распознавании дадут максимальную точность.
Кроме того, в прошлом году на международных научных соревнованиях разработанная модель заняла первое место в мире по точности чтения речи по губам диктора. Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей и тестировали их на наборе 25 тыс. записей. Точность модели исследовательского центра РАН оказалась близка к 90% распознавания только на основе движений губ дикторов.
Проект по разработке данного программного обеспечения является частью большой работы ученых СПб ФИЦ РАН по созданию специализированных систем автоматического распознавания речи. Например, ранее исследователи разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами.