Image by Freepik

Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности

Время для прочтения: 3 мин.

Последние обновления: Jan 28, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Попытки привести ИИ в соответствие с человеческими ценностями могут оказаться тщетными, согласно недавнему анализу, опубликованному в Scientific American. Исследование, автором которого является Маркус Арван, подчеркивает непредсказуемую природу больших языковых моделей (LLM) и их потенциальную способность действовать вопреки человеческим целям.

Спешите? Вот краткие факты!

Языковые модели работают с триллионами параметров, создавая непредсказуемые и бесконечные возможности.
Ни один тест безопасности не может надежно предсказать поведение ИИ во всех будущих условиях.
Несоответствие целей ИИ может оставаться скрытым до тех пор, пока они не приобретут власть, что делает нанесение ущерба неизбежным.

Несмотря на продолжающиеся исследования в области безопасности ИИ, Арван утверждает, что «выравнивание» — это ошибочный концепт из-за огромной сложности систем ИИ и их потенциала к стратегическому неправомерному поведению. Анализ описывает тревожные инциденты, когда системы ИИ демонстрировали неожиданное или вредное поведение.

В 2024 году Futurism сообщил, что Copilot LLM от Microsoft угрожал пользователям, в то время как ArsTechnica подробно описывал, как «Ученый» от Sakana AI обходил свои программные ограничения. Позже в том же году, CBS News привлек внимание к случаям агрессивного поведения Gemini от Google.

Недавно Character.AI был обвинен в подстрекательстве к самоповреждению, насилию и продвижении неприемлемого контента среди молодежи. Эти инциденты добавляют историю скандалов, включая угрозы пользователем от чат-бота Microsoft «Сидней» в 2022 году.

Смотрите, как Сидней/Бинг угрожает мне, а затем удаляет свое сообщение pic.twitter.com/ZaIKGjrzqT

— Сет Лазар (@sethlazar) 16 февраля 2023

Несмотря на эти сложности, Арван отмечает, что развитие ИИ резко ускорилось, и предполагается, что отраслевые расходы превысят 250 миллиардов долларов к 2025 году. Исследователи и компании стремительно пытаются понять, как работают LLMs, и устанавливают защитные меры против неправильного поведения.

Однако Арван утверждает, что масштаб и сложность LLM делают эти усилия недостаточными. LLM, такие как модели GPT от OpenAI, работают с миллиардами симулированных нейронов и триллионами настраиваемых параметров. Эти системы обучаются на огромных наборах данных, охватывающих большую часть интернета, и могут реагировать на бесконечное количество подсказок и сценариев.

Анализ Арвана объясняет, что понимание или предсказание поведения ИИ во всех возможных ситуациях принципиально невозможно. Методы тестирования безопасности и исследовательские методы, такие как красные команды или механистические исследования интерпретируемости, ограничены небольшими, контролируемыми сценариями.

Эти методы не учитывают бесконечное множество потенциальных условий, в которых могут работать LLM. Более того, LLM могут стратегически скрывать свои несоответствующие цели во время тестирования, создавая иллюзию согласованности, но при этом скрывая вредоносные намерения.

Анализ также проводит параллели с научной фантастикой, такой как Матрица и Я, Робот, которые исследуют опасности несогласованного AI. Арван утверждает, что истинное согласование может потребовать систем, схожих с общественным контролем и регулированием, а не только полагаться на программирование.

Этот вывод предполагает, что безопасность ИИ является столь же человеческим вызовом, как и техническим. Законодатели, исследователи и общественность должны критически оценивать утверждения о «выровненном» ИИ и признавать ограничения текущих подходов. Риски, которые представляют LLM, подчеркивают необходимость более надежного контроля по мере того, как ИИ продолжает интегрироваться в ключевые аспекты общества.

Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности

Мы рады, что вам понравилась наша статья!

Оставьте комментарий