Робота навчили жестикулювати на записах TED Talks

Розробники навчали нейромережу на 52 годинах записів виступів спікерів на TED Talks
Розробники навчали нейромережу на 52 годинах записів виступів спікерів на TED TalksYoon et al./arXiv 2018

Вчені навчили тривимірну графічну систему супроводжувати синтезовану мову жестами, використавши 52 години записів виступів спікерів на TED Talks. Систему також пристосували для керування рухами людиноподібного робота під час розмови.

Для ефективного спілкування з людьми роботи повинні вміти користуватися зокрема невербальними засобами комунікації. Один з таких засобів —жести. Навчити їм роботів вирішили корейські вчені з Науково-дослідного інституту електроніки та телекомунікацій і Корейського інституту передових технологій.

Вони зібрали датасет з 52 годин записів виступів спікерів на конференціях TED Talks. Жести людей на відео розмітили за допомогою відкритого алгоритму OpenPose (використовувалися тільки рухи голови, торса і рук) і співвіднесені з окремими акцентними словами фраз за допомогою нейромережі. Отримана система змогла відтворювати положення віртуального тіла в тривимірному просторі відповідно до синтезованої промови.

Вчені попросили 46 людей оцінити за шкалою від 1 до 5, наскільки вироблені жести, що супроводжували мову, схожі на людські, відповідають сказаному та приємні на вигляд. Добровольці мали порівняти рухи живих людий з датасета(оцінювалися рухи «скелетів», створених в OpenSpace ), приклад, отриманий за допомогою розробленого алгоритму, випадково підібрані рухи, а також рухи, налаштовані вручну. Створені алгоритмом жести перевершили за всіма параметрами всі інші методи, крім рухів справжніх людей.

Також систему випробували на людиноподібному роботі NAO, якого часто використовують в дослідженнях взаємодії роботів з людьми. За словами розробників алгоритму, роботу вдалося успішно відтворити задані жести.

Алгоритм також випробували на людиноподібному роботі NAOYoon et al./arXiv 2018

Розробники відзначають, що використовували в ролі даних для навчання відеозаписи виступів на TED Talks, оскільки жести спікерів опрацьовані та добре відповідають мові. Проте, слід враховувати те, що жести професійних лекторів можуть відрізнятися від рухів людей в повсякденному мовленні.

Раніше Гарвард оцифрував 6,4 мільйона судових справ для навчання штучного інтелекту