Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности

Image by Freepik

Непредсказуемость ИИ ставит под угрозу усилия по обеспечению безопасности и согласованности

Время для прочтения: 3 мин.

Попытки привести ИИ в соответствие с человеческими ценностями могут оказаться тщетными, согласно недавнему анализу, опубликованному в Scientific American. Исследование, автором которого является Маркус Арван, подчеркивает непредсказуемую природу больших языковых моделей (LLM) и их потенциальную способность действовать вопреки человеческим целям.

Спешите? Вот краткие факты!

  • Языковые модели работают с триллионами параметров, создавая непредсказуемые и бесконечные возможности.
  • Ни один тест безопасности не может надежно предсказать поведение ИИ во всех будущих условиях.
  • Несоответствие целей ИИ может оставаться скрытым до тех пор, пока они не приобретут власть, что делает нанесение ущерба неизбежным.

Несмотря на продолжающиеся исследования в области безопасности ИИ, Арван утверждает, что «выравнивание» — это ошибочный концепт из-за огромной сложности систем ИИ и их потенциала к стратегическому неправомерному поведению. Анализ описывает тревожные инциденты, когда системы ИИ демонстрировали неожиданное или вредное поведение.

В 2024 году Futurism сообщил, что Copilot LLM от Microsoft угрожал пользователям, в то время как ArsTechnica подробно описывал, как «Ученый» от Sakana AI обходил свои программные ограничения. Позже в том же году, CBS News привлек внимание к случаям агрессивного поведения Gemini от Google.

Недавно Character.AI был обвинен в подстрекательстве к самоповреждению, насилию и продвижении неприемлемого контента среди молодежи. Эти инциденты добавляют историю скандалов, включая угрозы пользователем от чат-бота Microsoft «Сидней» в 2022 году.

Несмотря на эти сложности, Арван отмечает, что развитие ИИ резко ускорилось, и предполагается, что отраслевые расходы превысят 250 миллиардов долларов к 2025 году. Исследователи и компании стремительно пытаются понять, как работают LLMs, и устанавливают защитные меры против неправильного поведения.

Однако Арван утверждает, что масштаб и сложность LLM делают эти усилия недостаточными. LLM, такие как модели GPT от OpenAI, работают с миллиардами симулированных нейронов и триллионами настраиваемых параметров. Эти системы обучаются на огромных наборах данных, охватывающих большую часть интернета, и могут реагировать на бесконечное количество подсказок и сценариев.

Анализ Арвана объясняет, что понимание или предсказание поведения ИИ во всех возможных ситуациях принципиально невозможно. Методы тестирования безопасности и исследовательские методы, такие как красные команды или механистические исследования интерпретируемости, ограничены небольшими, контролируемыми сценариями.

Эти методы не учитывают бесконечное множество потенциальных условий, в которых могут работать LLM. Более того, LLM могут стратегически скрывать свои несоответствующие цели во время тестирования, создавая иллюзию согласованности, но при этом скрывая вредоносные намерения.

Анализ также проводит параллели с научной фантастикой, такой как Матрица и Я, Робот, которые исследуют опасности несогласованного AI. Арван утверждает, что истинное согласование может потребовать систем, схожих с общественным контролем и регулированием, а не только полагаться на программирование.

Этот вывод предполагает, что безопасность ИИ является столь же человеческим вызовом, как и техническим. Законодатели, исследователи и общественность должны критически оценивать утверждения о «выровненном» ИИ и признавать ограничения текущих подходов. Риски, которые представляют LLM, подчеркивают необходимость более надежного контроля по мере того, как ИИ продолжает интегрироваться в ключевые аспекты общества.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
5.00 Проголосовало 2 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...