ENRU

Дослідники у США розробили штучний інтелект, який «бачить» звуки на відео

Дослідники Массачусетського технологічного інститут розробили систему штучного інтелекту PixelPlayer, яка здатна виявляти об'єкти, які на відеозаписі виробляють звук.

Про це пише Medium.

Система використовує «глибоке вивчення» і була запрограмована за допомогою відтворення 60 годин музичних виступів, аби визначити природну синхронізацію візуальної та аудіоінформації.

Дослідники використали нейронні мережі, щоб зосередити увагу системи на зображеннях та звуках, а також визначати місцезнаходження пікселів для джерел звуку.

Архітектура PixelPlayer включає в себе мережу відеоаналізу, яка відповідає за відокремлення візуальних функцій від відеокадрів, мережу аудіо-аналізу, яка кодує аудіовхід, та аудіосистему, яка «бачить» звуки, об'єднуючи візуальні та аудіофункції пікселів.

Для прикладу вчені створили інтерактивні ролики з музикантами: на відео можна натиснути на окремий інструмент і дізнатися його звучання.

Раніше повідомлялось, що штучний інтелект від Google навчили діагностувати понад 50 захворювань очей