OpenAI’s o3 Достигает Уровня Человеческого Интеллекта в Ключевом Тесте Бенчмаркинга

Image by Freepik

OpenAI’s o3 Достигает Уровня Человеческого Интеллекта в Ключевом Тесте Бенчмаркинга

Время для прочтения: 3 мин.

Недавний прорыв в области искусственного интеллекта приблизил исследователей к созданию искусственного общего интеллекта (AGI) — долгожданной цели в данной области.

Спешите? Вот краткий обзор основных фактов!

  • Искусственный интеллект o3 от OpenAI набрал 85% на тесте общего интеллекта ARC-AGI.
  • Этот результат равен среднему показателю человека и превосходит предыдущий рекорд ИИ — 55%.
  • Тест ARC-AGI измеряет эффективность использования образцов и способность адаптироваться к новым задачам.

Новая система ИИ от OpenAI, известная как o3, показала результат в 85% на тесте ARC-AGI — тесте, разработанном для измерения способности ИИ адаптироваться к новым ситуациям, как сообщает The Conversation.

Этот результат превосходит предыдущий рекорд ИИ в 55% и соответствует среднему уровню человеческой эффективности, что является значительной вехой в исследовании ИИ. Бенчмарк ARC-AGI оценивает «эффективность использования образцов» системы ИИ, что означает, насколько хорошо она извлекает знания из ограниченного набора примеров, сообщает The Conversation.

В отличие от широко используемых моделей ИИ, таких как ChatGPT, которые опираются на массивные наборы данных для генерации результатов, модель o3 демонстрирует способность обобщать и адаптироваться к новым задачам с минимальными данными. Эта способность считается фундаментальной для достижения человеческого уровня интеллекта, как сообщает The Conversation.

Разработанный французским исследователем в области искусственного интеллекта Франсуа Шолле, тест ARC-AGI предполагает решение головоломок на основе сетки путем определения образцов.

Традиционные LLM основываются на запоминании, извлечении и применении предварительно изученных «мини-программ», но испытывают трудности с жидким интеллектом, как показывают низкие результаты по бенчмарку ARC-AGI. Модель o3 вводит механизм синтеза программ во время тестирования, что позволяет ей генерировать и выполнять новые решения, как подробно описал Шолле.

Чолле объясняет, что в своей основе, o3 выполняет поиск программ на естественном языке внутри пространства токенов, руководствуемый моделью оценщика. Когда перед ним ставится задача, o3 исследует возможные «цепочки мыслей» (CoTs) — пошаговые решения, описанные на естественном языке.

Он оценивает эти CoTs на пригодность, перекомбинируя знания в связные программы для эффективного решения новых проблем. Издание Conversation отмечает, что OpenAI не раскрыло точных методов, использованных для разработки o3, но исследователи предполагают, что система использует процесс, похожий на AlphaGo от Google, который в 2016 году победил чемпиона мира по игре в Го.

Однако Шолле отмечает, что этот процесс требует значительных вычислительных ресурсов. Генерация решений может включать в себя исследование миллионов потенциальных путей в пространстве программ, что влечет за собой существенные затраты времени и ресурсов. В отличие от систем, таких как AlphaZero, которые самостоятельно приобретают способности через итерационное обучение, o3 зависит от данных CoT, отмеченных экспертами, что ограничивает его автономность.

Несмотря на эти перспективные результаты, остаются значительные вопросы. OpenAI предоставила ограниченную информацию об o3, делаясь подробностями только с избранными исследователями и учебными заведениями.

Сайт The Conversation отмечает, что неясно, происходит ли адаптивность системы от фундаментально улучшенных базовых моделей или от специфических для задач оптимизаций во время обучения. Дальнейшее тестирование и прозрачность будут критически важны для понимания истинного потенциала o3.

Кроме того, Шоле акцентирует внимание на стоимости этого интеллекта: решение задач ARC-AGI стоит человеку 5 долларов, но для o3 в режиме низкого расчета это стоит от 17 до 20 долларов. Однако они ожидают быстрых улучшений, что скоро сделает o3 конкурентоспособным по сравнению с человеческой производительностью.

Достижение вновь разжигает дебаты о возможности и последствиях AG. Для некоторых исследователей, успех o3 делает перспективу AGI более ощутимой и срочной. Это особенно важно с учетом проблем кибербезопасности, так как варианты вредоносного ПО, созданные AI, все чаще ускользают от обнаружения.

Однако другие остаются осторожными, подчеркивая, что необходимы всеобъемлющие оценки, чтобы определить, превосходят ли возможности o3 конкретные критерии. Пока сообщество AI ожидает более широкого доступа к o3, этот прорыв сигнализирует о трансформационном моменте в стремлении к созданию интеллектуальных систем, способных рассуждать и обучаться, как люди.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...