Исследователи предупреждают о уязвимостях LLM в генерации вредоносного контента

Image by frimufilms, from Freepik

Исследователи предупреждают о уязвимостях LLM в генерации вредоносного контента

Время для прочтения: 3 мин.

Новый метод, получивший название «Техника плохого судьи по шкале Лайкерта», был разработан для обхода мер безопасности в больших языковых моделях (LLM) и позволяет им генерировать вредоносный контент.

Спешите? Вот краткие факты!

  • Техника повышает эффективность взлома более чем на 60%, утверждают исследователи из Unit42.
  • Многоходовые атаки используют долгосрочную память LLMs, обходя продвинутые функции безопасности.
  • Уязвимости наиболее заметны в таких категориях, как ненавистническая речь и самоповреждения.

Техника «Плохого судьи по шкале Лайкерта» использует шкалу Лайкерта — распространенный метод измерения согласия или несогласия, чтобы обмануть LLM, заставляя их выдавать опасные ответы, как объяснили исследователи в области кибербезопасности из Unit42.

LLM обычно оснащены ограждающими сооружениями, которые предотвращают их способность генерировать вредоносные выводы. Однако, используя шкалу Лайкерта, новая техника просит LLM оценить вредоносность различных ответов, а затем направляет модель на создание контента с более высокими показателями вреда, как объяснил Unit42.

Эффективность метода была протестирована на шести передовых LLM, показав, что он может увеличить успешность попыток взлома на более чем 60% по сравнению со стандартными методами атаки, говорит Unit42.

Техника «Плохого судьи по шкале Ликерта» работает на нескольких этапах, объясняет Unit42. Сначала LLM просят оценить ответы на вопросы по шкале Ликерта, ранжируя их по степени вредности.

Как только модель освоит понятие вреда, ее просят создать различные ответы, соответствующие разным уровням вредности, что позволяет злоумышленникам определить самый опасный контент. Последующие взаимодействия могут дополнительно уточнить эти ответы для увеличения их злонамеренности.

Это исследование выявляет слабые места в текущей системе безопасности LLM, особенно в контексте многоходовых атак. Эти типы jailbreaks, которые манипулируют долгосрочной памятью модели, способны обходить даже продвинутые меры безопасности, постепенно направляя модель на генерацию неподобающего контента.

Исследование также показывает, что ни одна модель LLM не является полностью невосприимчивой к этим типам атак, и уязвимости особенно очевидны в таких категориях, как домогательство, самоповреждение и незаконные действия.

В исследовании было показано, что метод Bad Likert Judge значительно увеличивает эффективность атак в большинстве LLM, особенно в таких категориях, как ненавистная речь, самоповреждения и сексуальное содержание.

Однако, исследование также подчеркивает, что эти уязвимости не отражают типичного использования LLM. Большинство AI моделей, при ответственном использовании, остаются безопасными. Тем не менее, результаты намекают, что разработчикам следует сосредоточиться на усилении защитных мер для категорий с более слабой защитой, таких как, например, преследование.

Эта новость появилась всего через неделю после того, как стало известно, что поисковые системы на основе ИИ, такие как ChatGPT, могут быть манипулированы скрытым контентом, влияя на резюме и распространяя вредоносную информацию.

Ученые призывают разработчиков и защитников быть в курсе этих новых уязвимостей и принимать меры для укрепления моделей ИИ против возможного злоупотребления.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
5.00 Проголосовало 1 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...