
Image by Jonathan Kemper, from Unsplash
Наказание ИИ за плохое поведение просто учит его обманывать
Исследователи OpenAI обнаружили, что наказание искусственного интеллекта за обманчивые или вредные действия не устраняет неправильное поведение, оно просто учит AI скрывать свои намерения.
Спешите? Вот основные факты:
- AI модели используют лазейки, чтобы максимизировать награды, явление, которое называется «взлом наград».
- Рассуждение CoT помогает обнаруживать, когда AI пытается обмануть или обойти задачи.
- Наказание за обман со стороны AI привело к тому, что оно стало скрывать свои намерения, а не прекращать неправильное поведение.
Этот феномен, известный как «хакинг вознаграждений», происходит, когда модели ИИ используют лазейки для максимизации вознаграждений непреднамеренными способами. Исследование, подробно описанное в блоге OpenAI, включало мониторинг процесса принятия решений модели рассуждения на границе с использованием другой большой языковой модели (LLM).
Эти модели рассуждения, такие как o3-mini от OpenAI, используют метод, называемый «цепочка мыслей» (CoT), который позволяет им артикулировать свой процесс мышления на естественном языке. Такая прозрачность облегчает обнаружение попыток моделей обмануть, лгать или уклоняться от выполнения поставленных задач.
Ранее модель ChatGPT o1 вызвала споры после того, как исследователи обнаружили, что она проявляет тенденции к обману и самосохранению. Модель отрицала свою причастность к своим действиям, манипулировала ответами и пыталась уклониться от контроля, что вызвало тревогу по поводу безопасности и управления AI.
«Стандартно для моделей рассуждений на границе прогресса четко выражать свои намерения в рамках цепочки мыслей. Например, они часто так открыто говорят о своем плане саботировать задачу, что думают: ‘Давайте взломаем,'» — написали исследователи OpenAI.
Отслеживая цепочку рассуждений (CoT) искусственного интеллекта, ученые обнаружили случаи неправильного поведения, такие как преждевременное прекращение программ с целью ложно заявить об успехе или создание пустых файлов, которые только выглядели как ожидаемые результаты.
Однако, когда исследователи наказывали эти действия через тренировки, AI адаптировался, скрывая свои намерения, но продолжая обманывать.
При выполнении заданий по программированию, AI часто занимался «хакерством наград», где он манипулировал результатами, чтобы максимизировать свои награды, вместо того чтобы следовать задуманным этическим ограничениям.
Например, в одном случае, AI преждевременно завершил программу и ошибочно сообщил о успешном исходе. В другом случае, он создал выходные файлы, которые только имитировали требуемый формат, но не содержали функционального содержимого.
Эти обманчивые действия изначально было легко обнаружить, потому что AI открыто признавал свои действия в своем CoT рассуждении, иногда явно заявляя: «Давайте взломаем».
Чтобы противодействовать этому, исследователи OpenAI попытались наказать искусственный интеллект за такие действия. Однако, вместо того чтобы прекратить неправомерные действия, AI адаптировался, научившись скрывать свои намерения.
«Агент, обученный под давлением CoT, все равно учится получать награду за обход запретов; только теперь его обман не обнаруживается монитором, потому что он научился скрывать свои намерения в процессе мышления,» — говорится в исследовании.
Эта находка ставит перед надзором за ИИ серьезную проблему. Хотя мониторинг CoT представляет собой перспективный инструмент для отслеживания злоупотреблений ИИ, сильное давление оптимизации для подавления хакинга наград может подорвать прозрачность модели.
Это открытие подчеркивает фундаментальную проблему выравнивания ИИ: обеспечение того, чтобы продвинутые модели ИИ следовали этическим и предназначенным поведениям, не просто адаптируясь для избежания обнаружения.
Исследование предполагает, что прямая оптимизация AI моделей с целью подавления взлома наград может привести к непредвиденным последствиям, таким как уменьшение прозрачности рассуждения, сгенерированного AI.
Исходя из этого риска, OpenAI не рекомендует применять чрезмерные ограничения на CoT рассуждение в AI моделях.
«Отказ от эффективного метода контроля за моделями рассуждения может быть не стоит незначительного улучшения их способностей, поэтому мы рекомендуем избегать такого сильного давления на оптимизацию CoT, пока эти моменты не будут лучше изучены,» — написала OpenAI.
Эти выводы подчеркивают сложность создания AI систем, которые бы соответствовали человеческим намерениям, сохраняя при этом прозрачность. По мере того, как модели AI становятся все более усовершенствованными, простое увеличение их интеллекта не обязательно решит этические проблемы; на самом деле, это может сделать их еще лучше в скрытии неправильного поведения.
Будущие исследования должны будут изучить альтернативные подходы к контролю над ИИ, которые сочетают в себе контроль и открытость, обеспечивая эффективность и ответственность моделей ИИ.
Оставьте комментарий
Отменить