У Google придумали, як адаптувати відеодзвінки для людей із порушеннями слуху

Старша редакторка стрічки новин, журналістка

05 жовтня 2020 18:10

Розробники з Google створили програму, яка визначає, коли людина на відеозустрічі використовує жестову мову та показує її як активного співрозмовника. Це має допомогти людям із порушеннями слуху використовувати програми для відеозв'язку.

Про це йдеться у блозі Google AI.

У час пандемії, коли компанії почали працювати віддалено та використовувати відеозв'язок замість звичайних зустрічей, у людей з порушеннями слуху можуть з'явитися труднощі у використанні таких програм. Наприклад, під час групового відеодзвінка програми зазвичай збільшено показують іншим співрозмовникам відео людини, яка зараз говорить. А якщо людина використовує жестову мову — так не відбувається.

Тож розробники створили програму, яка має полегшити життя для таких людей. Програма умовно складається з двох частин.

Перша — знімає людину та створює схематичну модель рухів тіла та рук за допомогою алгоритму PoseNet. Він за допомогою оптичної оцінки рухів визначає, що співрозмовник активно рухає руками. Робота алгоритму не залежить від того, як далеко людина сидить від камери.

Коли алгоритм визначає, що людина використовує жестову мову, він за допомогою ультразвукового сигналу передає це додатку відеозв'язку.

Наприклад, у людини, яка розповідає щось жестовою мовою, ввімкнутий мікрофон, але він майже не вловлює звуків. Тож розробники вирішили до запису з мікрофонів таких співрозмовників додавати ультразвук із частотою 20 кГц, який не чують люди.

Алгоритм передає ці дані в додаток відеозв'язку, а він визначає такий ультразвук як шум і показує відео людини з жестовою мовою іншим учасникам відеоконференції.

Розробку протестували на німецькій жестовій мові. Точність визначення рухів людини складає 91,5%. Водночас у програми ще є недоліки.

Наприклад, вона визначає активність людини в цілому та не розрізняє, коли використовують жестову мову чи просто махають руками. Також поки програми працює тільки з Windows та Mac, невідомо, коли вона зможе працювати на смартфонах.

Крім того, розробники виклали вихідний код програми на GitHub, де охочі можуть запропонувати свої вдосконалення.