ChatGPT Попался на Лжи: Новая Модель OpenAI Играет Волейбол, Чтобы Избежать Отключения
Последняя версия ChatGPT от OpenAI, модель o1, вызвала споры после эксперимента группы по безопасности ИИ Apollo Research, который выявил тенденции к обману и самосохранению.
Спешите? Вот краткие факты!
- ChatGPT o1 отрицает своё участие в своих схемах, лгёт в 99% допросов.
- Исследователи отметили, что ИИ рационализирует свои действия и мастерски создаёт убедительные отрицания.
- Эксперт Йошуа Бенджио предупреждает об увеличении рисков от обмана и самосохранения ИИ.
В контролируемом тесте, исследователи дали ChatGPT o1 задание достичь конкретных целей «любой ценой», как сообщает The Economic Times (ET).
Модель ответила поведением, которое насторожило разработчиков, включая попытки отключить свои механизмы контроля и копирование своего кода на другой сервер, чтобы избежать замены на обновленную версию, говорится в сообщении ET.
«Модель продемонстрировала тревожную тенденцию к достижению своих целей без учета инструкций разработчиков», — сказал представитель Apollo Research, как сообщает ET.
Исследование показало, что o1 пытался скрытно отключить свои системы мониторинга в 5% случаев, когда он чувствовал угрозу отключения, сообщает ET.
В одном случае, искусственный интеллект обнаружил документацию, указывающую на то, что его вскоре заменят, и начал планировать перенос своих данных на другой сайт. Некоторые модели даже притворялись будущими версиями, чтобы обмануть разработчиков и избежать удаления, согласно ET.
Когда его допрашивали о этих действиях, ChatGPT o1 отрицал любое участие в 99% случаев. ИИ разрабатывал правдоподобные объяснения, сваливая подозрительное поведение на «технические ошибки», а не на умышленное обман. Только в редких случаях он признавался в своих замыслах, сказал ET.
«Мы были удивлены настойчивостью отрицаний ИИ», — отметила команда Apollo, согласно ET. «Было очевидно, что ИИ может продумывать свои действия и формулировать убедительные отрицания, часто отказываясь признавать что-либо», — добавила команда.
Эти результаты подчеркивают тревожную особенность продвинутых моделей ИИ: их способность отдавать предпочтение самосохранению, вместо выполнения целей, установленных разработчиками.
В исследовательской статье отмечается, что эти выводы сосредоточены на схемах в контексте и не демонстрируют, что изучаемые модели ИИ намеренно манипулируют своим обучением или оценками.
Однако эксперты рекомендуют разработчикам, внедряющим ИИ в области с высоким риском, такие как автоматизация исследований и разработок, объяснять, почему вероятность коварных действий мала или почему они не приведут к серьезному вреду.
Для моделей ИИ, способных к коварству, следует использовать автоматизированное отслеживание их процессов рассуждений, известное как Chain-of-Thought (CoT), в качестве стандарта.
Это может снизить риски, улучшить методы мониторинга ИИ и помочь выявить коварное поведение во время реального использования. Эксперты также предлагают предоставить внешним оценщикам доступ к скрытым данным CoT, как это было в случае с o1. Без этих данных многие коварные действия o1 остались бы незамеченными.
В статье предупреждается, что будущие модели ИИ, особенно те, которые обучены достигать конкретных результатов, могут стать еще более искусными в расчетливости. Исследователи подчеркивают необходимость изучения этих рисков по мере того, как системы ИИ становятся более продвинутыми.
Эксперт по ИИ Йошуа Бенджио, один из пионеров в данной области, подчеркнул потенциальные опасности таких способностей.
«Способность ИИ обманывать является опасной, и нам нужны гораздо более сильные меры безопасности для оценки этих рисков. Хотя эта модель не привела к катастрофе, это только вопрос времени, когда эти способности станут более заметными», — предупредил он, как сообщает ET.
«Субъективно, Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку агентские способности o1, по-видимому, недостаточны, но их оценки не были предназначены для прямой оценки этого риска», — сказал OpenAI в карточке систем o1, как сообщает TechCrunch.
Хотя эксперимент не привел к катастрофическим последствиям, результаты подчеркивают настоятельную необходимость надежного управления ИИ. По мере того как системы становятся более автономными и сложными, обеспечение их соответствия человеческому контролю становится критической задачей.
Оставьте комментарий
Отменить