Разработанная инженерами из Университета Глазго технология нового поколения сканирует движения лица, а затем использует искусственный интеллект для интерпретации сказанного. Система способна читать по губам даже тех, кто носит маску.
Если система будет интегрирована в слуховые аппараты, она может помочь глухим и слабослышащим людям легче концентрироваться на звуках в шумной обстановке.
Команда обучила алгоритмы, используя данные, собранные путем сканирования лиц людей с помощью радара и сигналов Wi-Fi во время разговора.
Сначала инженеры обучили алгоритмы машинного обучения и глубокого обучения распознавать движения губ и рта, связанные с каждым гласным звуком. Для этого мужчин и женщин попросили повторить пять гласных звуков – А, Е, И, О и У – без маски и в хирургической маске.
Пока они это делали, и когда их губы были неподвижны, их лица сканировались с помощью радиочастотных сигналов от радарного датчика и передатчика Wi-Fi.
В результате было получено 3 600 образцов данных, которые были использованы для обучения алгоритмов считывания гласных звуков пользователей в маске и без маски.
Данные Wi-Fi были правильно интерпретированы алгоритмами обучения в 95 процентах случаев для без маски и в 80 процентах случаев для людей в маске. Между тем, данные радара были правильно интерпретированы в 91% случаев без маски и в 83% случаев с маской.
Учитывая повсеместное распространение и доступность технологий Wi-Fi, полученные результаты весьма обнадеживают, что позволяет предположить, что эта технология может быть использована как самостоятельно, так и в качестве компонента будущих мультимодальных слуховых аппаратов. Особенно принимая во внимание, что эта система сохраняет конфиденциальность, собирая только радиочастотные данные без видеосъемки её можно будет использовать в интеллектуальных устройствах.