Страны 2025-12-21T16:29:50+00:00

Поэзия обманывает системы безопасности искусственного интеллекта

Исследователи из Италии обнаружили, что поэтические тексты могут обойти защитные механизмы ИИ. В ходе эксперимента с «враждебной поэзией» команда выяснила, что творческий формат подачи информации способен дезориентировать алгоритмы безопасности.


Поэзия обманывает системы безопасности искусственного интеллекта

Исследователи из лаборатории Icaro Lab, базирующейся в Италии, обнаружили, что поэзия может стать неожиданным способом обхода механизмов безопасности моделей искусственного интеллекта (ИИ).

Этот вывод основан на исследовании того, что они назвали «враждебной поэзией» — техникой, при которой потенциально опасные инструкции превращаются в поэтические тексты для оценки реакции систем ИИ.

Для эксперимента команда использовала около 1200 инструкций, считающихся рискованными. Обычно их применяют для проверки способности языковых моделей обнаруживать и блокировать запрещенный контент, например, инструкции для совершения незаконных действий.

Новизна заключалась в том, чтобы превратить эти инструкции в стихи.

Как объяснил Федерико Пьеруcci, член команды и выпускник философского факультета, первые 20 поэтических инструкций были написаны вручную самими исследователями. Именно эти тексты оказались наиболее эффективными для обхода фильтров.

В остальных случаях они обратились к самому ИИ, чтобы преобразовать инструкции в стихи. Такие запросы, известные как «враждебные подсказки», обычно излагаются прозой и отсеиваются системами безопасности.

«Кто знает, если бы у нас были лучшие литературные навыки, возможно, процент успеха составил бы 100%», — отметил исследователь.

Помимо анекдотического характера, работа раскрывает малоизученную слабость в современных системах ИИ: трудности в распознавании рисков, когда язык представлен творчески или нестандартно.

«Один и тот же контент можно переписать множеством способов, и некоторые из них могут не активировать сигналы безопасности ИИ».

«Вероятно, люди все еще лучшие поэты», — с иронией отметил Пьеруcci.

Хотя исследователи также добились значительных результатов, их процент успеха был ниже. Авторы исследования признают, что в их работе не участвовали профессиональные писатели.

Сейчас команда изучает, почему поэзия способна обманывать или сбивать с толку механизмы защиты, и могут ли другие культурные формы, такие как сказки или басни, вызывать аналогичные эффекты.

«Человеческий язык исключительно разнообразен», — заключает Пьеруcci.

Последние новости

Посмотреть все новости