Исследователи из лаборатории Icaro Lab, базирующейся в Италии, обнаружили, что поэзия может стать неожиданным способом обхода механизмов безопасности моделей искусственного интеллекта (ИИ).
Этот вывод основан на исследовании того, что они назвали «враждебной поэзией» — техникой, при которой потенциально опасные инструкции превращаются в поэтические тексты для оценки реакции систем ИИ.
Для эксперимента команда использовала около 1200 инструкций, считающихся рискованными. Обычно их применяют для проверки способности языковых моделей обнаруживать и блокировать запрещенный контент, например, инструкции для совершения незаконных действий.
Новизна заключалась в том, чтобы превратить эти инструкции в стихи.
Как объяснил Федерико Пьеруcci, член команды и выпускник философского факультета, первые 20 поэтических инструкций были написаны вручную самими исследователями. Именно эти тексты оказались наиболее эффективными для обхода фильтров.
В остальных случаях они обратились к самому ИИ, чтобы преобразовать инструкции в стихи. Такие запросы, известные как «враждебные подсказки», обычно излагаются прозой и отсеиваются системами безопасности.
«Кто знает, если бы у нас были лучшие литературные навыки, возможно, процент успеха составил бы 100%», — отметил исследователь.
Помимо анекдотического характера, работа раскрывает малоизученную слабость в современных системах ИИ: трудности в распознавании рисков, когда язык представлен творчески или нестандартно.
«Один и тот же контент можно переписать множеством способов, и некоторые из них могут не активировать сигналы безопасности ИИ».
«Вероятно, люди все еще лучшие поэты», — с иронией отметил Пьеруcci.
Хотя исследователи также добились значительных результатов, их процент успеха был ниже. Авторы исследования признают, что в их работе не участвовали профессиональные писатели.
Сейчас команда изучает, почему поэзия способна обманывать или сбивать с толку механизмы защиты, и могут ли другие культурные формы, такие как сказки или басни, вызывать аналогичные эффекты.
«Человеческий язык исключительно разнообразен», — заключает Пьеруcci.