Штучний інтелект також може «тупішати» через меми — дослідження

Ілюстративне зображення
Ілюстративне зображенняCash Macanaya / Unsplash

Дослідники виявили, що споживання неякісного контенту може викликати тривале когнітивне зниження у великих мовних моделях (LLM) штучного інтелекту.

Про це йдеться в роботі групи американських дослідників, на яку звернуло увагу видання DTF Magazine. Ця робота нині опублікована як препринт і ще проходить рецензування.

Дослідники перевіряли гіпотезу, що brain rot — низькоякісний, сенсаційний, фрагментарний і популярний контент з інтернету — спричиняє стійке когнітивне погіршення не лише в людей, але й у моделей штучного інтелекту.

Для дослідження вони використали чотири моделі — Llama3 та три версії моделі Qwen. Їх «годували» дописами з Х (колишній Twitter). «Сміттєвий» набір даних включав популярний контент, розроблений для привернення уваги за допомогою мінімальної інформації: клікбейтні теми, повторювані коментарі до мемів, дописи, що викликають обурення, та алгоритмічно згенеровані списки.

На відміну від контрольної групи, безперервне донавчання чотирьох моделей на «сміттєвому» наборі даних спричинило суттєве зниження «здатності до міркування», гірше розуміння довгих контекстів, ослабленні етичних норм та появу «небажаних соціальних рис особистості», як-от ознаки психопатії чи нарцисизму.

Основною «патологією» дослідники називають пропуск мисленнєвих кроків: моделі дедалі частіше урізали або пропускали ланцюги міркувань, що пояснювало зростання помилок.

Автори спостерігали часткову, але неповну «реабілітацію»: масштабоване інструкційне донавчання та попереднє навчання на «чистих» даних покращували когнітивні властивості, але не повертали базових здатностей.

«Найголовніший висновок полягає в тому, що мовні моделі віддзеркалюють якість своїх даних більш глибоко, ніж ми думали. Коли моделі стикаються з небажаним текстом, вони не просто звучать гірше, вони починають гірше мислити», — розповіли співавтори дослідження Цзюнь Юань Хонг та Атлас Ван у коментарі Forbes.

Автори дослідження зазначають, що ці результати показують потребу в переосмисленні сучасних підходів до збору даних з інтернету та практик безперервного донавчання.

«Через обмеження обсягу дослідження ми залишаємо відкритим питання, у який саме спосіб популярні твіти або інші типи “сміттєвих“ даних змінюють механізм навчання, призводячи до когнітивного занепаду. Відповідь на це питання є ключовою для розробки ефективних методів захисту LLM у майбутньому», — зазначають автори.