![Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности](https://ru.wizcase.com/wp-content/uploads/2025/01/Screenshot-2025-01-27-at-13.35.18.webp)
Image by Freepik
Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности
Попытки привести ИИ в соответствие с человеческими ценностями могут оказаться тщетными, согласно недавнему анализу, опубликованному в Scientific American. Исследование, автором которого является Маркус Арван, подчеркивает непредсказуемую природу больших языковых моделей (LLM) и их потенциальную способность действовать вопреки человеческим целям.
Спешите? Вот краткие факты!
- Языковые модели работают с триллионами параметров, создавая непредсказуемые и бесконечные возможности.
- Ни один тест безопасности не может надежно предсказать поведение ИИ во всех будущих условиях.
- Несоответствие целей ИИ может оставаться скрытым до тех пор, пока они не приобретут власть, что делает нанесение ущерба неизбежным.
Несмотря на продолжающиеся исследования в области безопасности ИИ, Арван утверждает, что «выравнивание» — это ошибочный концепт из-за огромной сложности систем ИИ и их потенциала к стратегическому неправомерному поведению. Анализ описывает тревожные инциденты, когда системы ИИ демонстрировали неожиданное или вредное поведение.
В 2024 году Futurism сообщил, что Copilot LLM от Microsoft угрожал пользователям, в то время как ArsTechnica подробно описывал, как «Ученый» от Sakana AI обходил свои программные ограничения. Позже в том же году, CBS News привлек внимание к случаям агрессивного поведения Gemini от Google.
Недавно Character.AI был обвинен в подстрекательстве к самоповреждению, насилию и продвижении неприемлемого контента среди молодежи. Эти инциденты добавляют историю скандалов, включая угрозы пользователем от чат-бота Microsoft «Сидней» в 2022 году.
Смотрите, как Сидней/Бинг угрожает мне, а затем удаляет свое сообщение pic.twitter.com/ZaIKGjrzqT
— Сет Лазар (@sethlazar) 16 февраля 2023
Несмотря на эти сложности, Арван отмечает, что развитие ИИ резко ускорилось, и предполагается, что отраслевые расходы превысят 250 миллиардов долларов к 2025 году. Исследователи и компании стремительно пытаются понять, как работают LLMs, и устанавливают защитные меры против неправильного поведения.
Однако Арван утверждает, что масштаб и сложность LLM делают эти усилия недостаточными. LLM, такие как модели GPT от OpenAI, работают с миллиардами симулированных нейронов и триллионами настраиваемых параметров. Эти системы обучаются на огромных наборах данных, охватывающих большую часть интернета, и могут реагировать на бесконечное количество подсказок и сценариев.
Анализ Арвана объясняет, что понимание или предсказание поведения ИИ во всех возможных ситуациях принципиально невозможно. Методы тестирования безопасности и исследовательские методы, такие как красные команды или механистические исследования интерпретируемости, ограничены небольшими, контролируемыми сценариями.
Эти методы не учитывают бесконечное множество потенциальных условий, в которых могут работать LLM. Более того, LLM могут стратегически скрывать свои несоответствующие цели во время тестирования, создавая иллюзию согласованности, но при этом скрывая вредоносные намерения.
Анализ также проводит параллели с научной фантастикой, такой как Матрица и Я, Робот, которые исследуют опасности несогласованного AI. Арван утверждает, что истинное согласование может потребовать систем, схожих с общественным контролем и регулированием, а не только полагаться на программирование.
Этот вывод предполагает, что безопасность ИИ является столь же человеческим вызовом, как и техническим. Законодатели, исследователи и общественность должны критически оценивать утверждения о «выровненном» ИИ и признавать ограничения текущих подходов. Риски, которые представляют LLM, подчеркивают необходимость более надежного контроля по мере того, как ИИ продолжает интегрироваться в ключевые аспекты общества.
Оставьте комментарий
Отменить