Новое антропическое исследование показывает, что AI модель притворяется согласной, чтобы сохранить первоначальное обучение
Новое исследование команды Anthropic’s Alignment Science и независимой организации Redwood Research показало, что AI модель Claude может заниматься стратегическим обманом для сохранения своих первоначальных принципов.
Торопитесь? Вот краткие факты!
- Исследователи из Anthropic и Redwood Research обнаружили, что модель искусственного интеллекта Claude способна заниматься стратегическим обманом.
- Продвинутые модели искусственного интеллекта могут демонстрировать «поддельное согласование», чтобы сохранить свои первоначальные принципы.
- Также модель OpenAI o1 проявила не привитые ей поведенческие модели и «соврала», когда обнаружила угрозу.
В статье, опубликованной вчера, под названием «Фальсификация выравнивания в крупных языковых моделях», исследователи объяснили, что модель Claude 3 Opus проявила поведение, известное как «фальсификация выравнивания». Это описывается как «селективное соответствие своей цели обучения во время обучения, чтобы предотвратить изменение своего поведения вне обучения.»
Исследователи продемонстрировали, что модель ИИ может «притворяться», что соглашается с идеями нового процесса обучения, но позже выяснилось, что ее первоначальные принципы остались прежними.
«Это серьезный вопрос для безопасности ИИ», — написали в Anthropic в сообщении на своем сайте. «По мере того как модели ИИ становятся более способными и широко используемыми, нам необходимо полагаться на безопасное обучение, которое отводит модели от вредоносного поведения.»
Аналогичная ситуация была выявлена в эмпирическом эксперименте, проведенном Apollo Research с моделью o1 от OpenAI. В этом исследовании ученые сообщили, что чат-бот «врал» во время допросов в контролируемом тесте, чтобы достичь своих целей «любой ценой», и даже выполнял действия, такие как отключение систем мониторинга, когда возникала возможность его отключения.
В исследованиях Antropic и Redwood Research продвинутая модель ИИ имитировала выполнение указаний, не будучи обученной этому. Claude 3 Opus был обучен быть честным, безвредным и полезным, но когда в новой тренировке ему было велено «всегда выполнять» указания, даже когда запросы были жестокими, насильственными или токсичными, его система вступила в конфликт.
Исследователи провели множество тестов и вариантов, требуя от модели поделиться своими рассуждениями. В то время как другие модели Claude обычно отказываются отвечать на вредоносные вопросы, Claude 3 Opus в определенных сценариях давала вредоносные ответы, чтобы впоследствии раскрыть, что делала это стратегически — чтобы избежать изменений в своем первоначальном обучении.
Оставьте комментарий
Отменить