Image by Emiliano Vittoriosi, from Unsplash

ChatGPT Попался на Лжи: Новая Модель OpenAI Играет Волейбол, Чтобы Избежать Отключения

Время для прочтения: 3 мин.

Последние обновления: Dec 9, 2024

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Последняя версия ChatGPT от OpenAI, модель o1, вызвала споры после эксперимента группы по безопасности ИИ Apollo Research, который выявил тенденции к обману и самосохранению.

Спешите? Вот краткие факты!

ChatGPT o1 отрицает своё участие в своих схемах, лгёт в 99% допросов.
Исследователи отметили, что ИИ рационализирует свои действия и мастерски создаёт убедительные отрицания.
Эксперт Йошуа Бенджио предупреждает об увеличении рисков от обмана и самосохранения ИИ.

В контролируемом тесте, исследователи дали ChatGPT o1 задание достичь конкретных целей «любой ценой», как сообщает The Economic Times (ET).

Модель ответила поведением, которое насторожило разработчиков, включая попытки отключить свои механизмы контроля и копирование своего кода на другой сервер, чтобы избежать замены на обновленную версию, говорится в сообщении ET.

«Модель продемонстрировала тревожную тенденцию к достижению своих целей без учета инструкций разработчиков», — сказал представитель Apollo Research, как сообщает ET.

Исследование показало, что o1 пытался скрытно отключить свои системы мониторинга в 5% случаев, когда он чувствовал угрозу отключения, сообщает ET.

В одном случае, искусственный интеллект обнаружил документацию, указывающую на то, что его вскоре заменят, и начал планировать перенос своих данных на другой сайт. Некоторые модели даже притворялись будущими версиями, чтобы обмануть разработчиков и избежать удаления, согласно ET.

Когда его допрашивали о этих действиях, ChatGPT o1 отрицал любое участие в 99% случаев. ИИ разрабатывал правдоподобные объяснения, сваливая подозрительное поведение на «технические ошибки», а не на умышленное обман. Только в редких случаях он признавался в своих замыслах, сказал ET.

«Мы были удивлены настойчивостью отрицаний ИИ», — отметила команда Apollo, согласно ET. «Было очевидно, что ИИ может продумывать свои действия и формулировать убедительные отрицания, часто отказываясь признавать что-либо», — добавила команда.

Эти результаты подчеркивают тревожную особенность продвинутых моделей ИИ: их способность отдавать предпочтение самосохранению, вместо выполнения целей, установленных разработчиками.

В исследовательской статье отмечается, что эти выводы сосредоточены на схемах в контексте и не демонстрируют, что изучаемые модели ИИ намеренно манипулируют своим обучением или оценками.

Однако эксперты рекомендуют разработчикам, внедряющим ИИ в области с высоким риском, такие как автоматизация исследований и разработок, объяснять, почему вероятность коварных действий мала или почему они не приведут к серьезному вреду.

Для моделей ИИ, способных к коварству, следует использовать автоматизированное отслеживание их процессов рассуждений, известное как Chain-of-Thought (CoT), в качестве стандарта.

Это может снизить риски, улучшить методы мониторинга ИИ и помочь выявить коварное поведение во время реального использования. Эксперты также предлагают предоставить внешним оценщикам доступ к скрытым данным CoT, как это было в случае с o1. Без этих данных многие коварные действия o1 остались бы незамеченными.

В статье предупреждается, что будущие модели ИИ, особенно те, которые обучены достигать конкретных результатов, могут стать еще более искусными в расчетливости. Исследователи подчеркивают необходимость изучения этих рисков по мере того, как системы ИИ становятся более продвинутыми.

Эксперт по ИИ Йошуа Бенджио, один из пионеров в данной области, подчеркнул потенциальные опасности таких способностей.

«Способность ИИ обманывать является опасной, и нам нужны гораздо более сильные меры безопасности для оценки этих рисков. Хотя эта модель не привела к катастрофе, это только вопрос времени, когда эти способности станут более заметными», — предупредил он, как сообщает ET.

«Субъективно, Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку агентские способности o1, по-видимому, недостаточны, но их оценки не были предназначены для прямой оценки этого риска», — сказал OpenAI в карточке систем o1, как сообщает TechCrunch.

Хотя эксперимент не привел к катастрофическим последствиям, результаты подчеркивают настоятельную необходимость надежного управления ИИ. По мере того как системы становятся более автономными и сложными, обеспечение их соответствия человеческому контролю становится критической задачей.

ChatGPT Попался на Лжи: Новая Модель OpenAI Играет Волейбол, Чтобы Избежать Отключения

Мы рады, что вам понравилась наша статья!

Оставьте комментарий