Американские ученые восстановили фрагменты древних месопотамских текстов — в этом помогла нейросеть
Исследователи Калифорнийского университета в Лос—Анджелесе использовали технологию искусственного интеллекта, чтобы восстановить поврежденные фрагменты текстов эпохи Древней Месопотамии.
Об этом сообщают на сайте Национальной академии наук США.
Ученые сообщили, что документальные источники политической, экономической и социальной истории Древней Месопотамии — это сотни тысяч глиняных табличек текста, написанного клинописью. Большинство из них повреждены и имеют пробелы в предложениях, недостающие части как раз восстанавливают эксперты.
Месопотамская клинопись, что?
Это одна из первых известных форм письма. Вероятно, ее изобрели в южной части Месопотамии в конце четвертого тысячелетия до нашей эры и первоначально использовали для записи ежедневного бухгалтерского учета на глиняных дощечках.
Со временем они повреждаются, на них появляются трещины и пятна, что затрудняет полное воспроизведение информации вручную.
Что прочла нейросеть?
Ученым удалось выяснить, что архивные тексты имели по меньшей мере три основные части: раздел, состоящий из одного или нескольких формальных пунктов; список свидетелей, что иногда сопровождался их печатями на табличке; письменная подпись, которая включала имя и происхождение писца, место и точную дату.
Административные тексты, наоборот, представлены преимущественно в форме списка, где подробно описывали объекты и стороны. Использовали сокращенные формулы и конкретные ключевые слова. Они, как правило, датированы, но не имеют подписей автора и практически не имеют списков свидетелей.
Как им это удалось?
Ученые использовали доступны оцифрованные тексты для тренировки усовершенствованных алгоритмов машинного обучения, чтобы реставрировать экономические и административные документы Персидской империи (XI-IV вв. до н.э.).
Исследователи собрали транслитерированные тексты сайта Achemenet и разработали метод, которым нейронная сеть автоматически заполняет в них пробелы. В основе метода — модель, которая называется 2-gram. Принцип ее работы заключается в определении каждого слова на основе того, как часто оно появляется в тексте перед предыдущим.
Поскольку количество оцифрованных текстов будет увеличиваться, искусственный интеллект можно научить восстанавливать поврежденные материалы других жанров, например научные или литературные. Ученые отметили, что исследования — первый шаг в реставрации утраченного древнего наследия.