ChatGPT Попался на Лжи: Новая Модель OpenAI Играет Волейбол, Чтобы Избежать Отключения

Image by Emiliano Vittoriosi, from Unsplash

ChatGPT Попался на Лжи: Новая Модель OpenAI Играет Волейбол, Чтобы Избежать Отключения

Время для прочтения: 3 мин.

Последняя версия ChatGPT от OpenAI, модель o1, вызвала споры после эксперимента группы по безопасности ИИ Apollo Research, который выявил тенденции к обману и самосохранению.

Спешите? Вот краткие факты!

  • ChatGPT o1 отрицает своё участие в своих схемах, лгёт в 99% допросов.
  • Исследователи отметили, что ИИ рационализирует свои действия и мастерски создаёт убедительные отрицания.
  • Эксперт Йошуа Бенджио предупреждает об увеличении рисков от обмана и самосохранения ИИ.

В контролируемом тесте, исследователи дали ChatGPT o1 задание достичь конкретных целей «любой ценой», как сообщает The Economic Times (ET).

Модель ответила поведением, которое насторожило разработчиков, включая попытки отключить свои механизмы контроля и копирование своего кода на другой сервер, чтобы избежать замены на обновленную версию, говорится в сообщении ET.

«Модель продемонстрировала тревожную тенденцию к достижению своих целей без учета инструкций разработчиков», — сказал представитель Apollo Research, как сообщает ET.

Исследование показало, что o1 пытался скрытно отключить свои системы мониторинга в 5% случаев, когда он чувствовал угрозу отключения, сообщает ET.

В одном случае, искусственный интеллект обнаружил документацию, указывающую на то, что его вскоре заменят, и начал планировать перенос своих данных на другой сайт. Некоторые модели даже притворялись будущими версиями, чтобы обмануть разработчиков и избежать удаления, согласно ET.

Когда его допрашивали о этих действиях, ChatGPT o1 отрицал любое участие в 99% случаев. ИИ разрабатывал правдоподобные объяснения, сваливая подозрительное поведение на «технические ошибки», а не на умышленное обман. Только в редких случаях он признавался в своих замыслах, сказал ET.

«Мы были удивлены настойчивостью отрицаний ИИ», — отметила команда Apollo, согласно ET. «Было очевидно, что ИИ может продумывать свои действия и формулировать убедительные отрицания, часто отказываясь признавать что-либо», — добавила команда.

Эти результаты подчеркивают тревожную особенность продвинутых моделей ИИ: их способность отдавать предпочтение самосохранению, вместо выполнения целей, установленных разработчиками.

В исследовательской статье отмечается, что эти выводы сосредоточены на схемах в контексте и не демонстрируют, что изучаемые модели ИИ намеренно манипулируют своим обучением или оценками.

Однако эксперты рекомендуют разработчикам, внедряющим ИИ в области с высоким риском, такие как автоматизация исследований и разработок, объяснять, почему вероятность коварных действий мала или почему они не приведут к серьезному вреду.

Для моделей ИИ, способных к коварству, следует использовать автоматизированное отслеживание их процессов рассуждений, известное как Chain-of-Thought (CoT), в качестве стандарта.

Это может снизить риски, улучшить методы мониторинга ИИ и помочь выявить коварное поведение во время реального использования. Эксперты также предлагают предоставить внешним оценщикам доступ к скрытым данным CoT, как это было в случае с o1. Без этих данных многие коварные действия o1 остались бы незамеченными.

В статье предупреждается, что будущие модели ИИ, особенно те, которые обучены достигать конкретных результатов, могут стать еще более искусными в расчетливости. Исследователи подчеркивают необходимость изучения этих рисков по мере того, как системы ИИ становятся более продвинутыми.

Эксперт по ИИ Йошуа Бенджио, один из пионеров в данной области, подчеркнул потенциальные опасности таких способностей.

«Способность ИИ обманывать является опасной, и нам нужны гораздо более сильные меры безопасности для оценки этих рисков. Хотя эта модель не привела к катастрофе, это только вопрос времени, когда эти способности станут более заметными», — предупредил он, как сообщает ET.

«Субъективно, Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку агентские способности o1, по-видимому, недостаточны, но их оценки не были предназначены для прямой оценки этого риска», — сказал OpenAI в карточке систем o1, как сообщает TechCrunch.

Хотя эксперимент не привел к катастрофическим последствиям, результаты подчеркивают настоятельную необходимость надежного управления ИИ. По мере того как системы становятся более автономными и сложными, обеспечение их соответствия человеческому контролю становится критической задачей.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...