Британські вчені навчили нейромережу перетворювати текст на відео з жестовою мовою

Британські науковці з Університету Суррея представили нейромережу, яка може перетворити текст на відео з людиною, яка показуватиме текст жестовою мовою.

Відповідну статтю опублікували на ресурсі препринтів arXiv.

Більшість контенту створюється для людей, які можуть чути. Для людей, які мають порушення слуху, створюють субтитри, якщо це відео, а на живих виступах використовують перекладачів жестової мови. Науковці намагаються автоматизувати процес, який дозволив би перекладати жестовою мовою офлайн-виступи.

Так, розробники створили алгоритм, який може перекладати текст жестовою мовою. Зокрема нейромережа окремо навчається якісно вимальовувати кисті рук, бо саме вони важливі для точно сурдоперекладу.

Далі текст проходить через кодування та перетворюється у скелетну модель тіла, яка показує текст жестами. Після цього послідовність поз кодується в вектор, а він об'єднується з зображенням людини, яке потрібно анімувати. Тоді послідовність поз передається на нейромережу U-Net, яка перетворює зміну поз на реалістичне відео.

Створений британцями алгоритм також вдосконалює свої навички. Він аналізує, наскільки вдало створив скелетну модель тіла, та робить її кращою наступного разу.

Роботу нейромережі перевірили на записах роботи перекладачів жестової німецької мови. Виявилося, що алгоритм досягнув значної схожості з зображенням жестів сурдоперекладачами, зокрема алгоритм точно відтворював рухи кистей.