Фонд Arc Prize запускает новый сложный бенчмарк AGI, выявляющий слабые стороны искусственного интеллекта.

Photo by Igor Omilaev on Unsplash

Фонд Arc Prize запускает новый сложный бенчмарк AGI, выявляющий слабые стороны искусственного интеллекта.

Время для прочтения: 3 мин.

Некоммерческий фонд Arc Prize Foundation объявил в понедельник о новом стандарте, ARC-AGI-2, предназначенном для проверки передовых моделей ИИ на способность к логическому мышлению и способности на уровне человека. Организация также объявила о новом конкурсе, ARC Prize 2025, который пройдет с марта по ноябрь, а победитель получит Главный приз в размере 700 000 долларов.

Спешите? Вот краткие факты:

  • Фонд Arc Prize запустил новый эталонный тест под названием ARC-AGI-2 для проверки навыков логического мышления на уровне человека у моделей искусственного интеллекта.
  • Текущие ведущие модели ИИ провалили этот тест, набрав от 0,0% до 4%, в то время как люди набрали до 100%.
  • Некоммерческая организация также объявила о проведении конкурса ARC Prize 2025 по данному эталонному тесту, и победитель получит приз в размере 700 000 долларов.

Согласно информации, предоставленной организацией, самые популярные модели ИИ на рынке не смогли преодолеть отметку в 4% на ARC-AGI-2, тогда как люди без труда справляются с этим тестом.

«Сегодня мы рады запустить ARC-AGI-2, чтобы бросить вызов новому фронтиру,» — говорится в объявлении. «ARC-AGI-2 ещё более сложен для ИИ (в частности, систем рассуждений ИИ), сохраняя при этом ту же относительную лёгкость для людей.»

ARC-AGI-2 — это второе издание эталона организации, ARC-AGI-1, запущенного в 2019 году. На предыдущем тесте только OpenAI’s o3 успешно набрал 85% в декабре 2024 года.

Эта новая версия сосредоточена на задачах, которые легко решаются людьми и сложны для AI моделей, или до сих пор были невозможными. В отличие от других бенчмарков, ARC-AGI-2 не учитывает навыки уровня доктора наук или сверхчеловеческие способности, вместо этого задачи оценивают способность к адаптации и навыки решения проблем путем применения существующих знаний.

Arc Prize объяснила, что каждая задача в тесте была решена людьми менее чем за 2 попытки, и AI модели должны соответствовать аналогичным правилам, учитывая наименьшие затраты. Тест включает символическую интерпретацию — AI модели должны понимать символы, идущие за рамки визуальных паттернов, учитывая одновременные правила и правила, которые меняются в зависимости от контекста — что-то, в чем большинство систем рассуждения AI терпят неудачу.

Организация провела тестирование нового бенчмарка с участием людей и публичных моделей AI. Человеческие группы набрали 100% и 60%, в то время как популярные фронтовые системы, такие как R1 и R1-zero от DeepSeek, набрали 0.3%, а чистый LLM и o3-mini-high от GPT-4.5 — 0.0%. o3-low от OpenAI, используя цепочку мыслительного процесса, поиск и синтез, достигли оценки в 4% при высокой стоимости за задачу.

Arc Prize также запустил последний конкурс с открытым исходным кодом, ARC Prize 2025, который проходит с марта по ноябрь на популярной онлайн-платформе Kaggle. Первой команде, которая достигнет оценки выше 85% — и эффективности $2.5/задача — на бенчмарке ARC-AGI-2, достанется главный приз в $700,000. Также будут вручены награды за научные статьи и другие призы за высокие оценки.

Фонд сообщил, что более подробная информация будет предоставлена на официальном сайте и в ближайшие дни.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...