
Photo by Igor Omilaev on Unsplash
Фонд Arc Prize запускает новый сложный бенчмарк AGI, выявляющий слабые стороны искусственного интеллекта.
Некоммерческий фонд Arc Prize Foundation объявил в понедельник о новом стандарте, ARC-AGI-2, предназначенном для проверки передовых моделей ИИ на способность к логическому мышлению и способности на уровне человека. Организация также объявила о новом конкурсе, ARC Prize 2025, который пройдет с марта по ноябрь, а победитель получит Главный приз в размере 700 000 долларов.
Спешите? Вот краткие факты:
- Фонд Arc Prize запустил новый эталонный тест под названием ARC-AGI-2 для проверки навыков логического мышления на уровне человека у моделей искусственного интеллекта.
- Текущие ведущие модели ИИ провалили этот тест, набрав от 0,0% до 4%, в то время как люди набрали до 100%.
- Некоммерческая организация также объявила о проведении конкурса ARC Prize 2025 по данному эталонному тесту, и победитель получит приз в размере 700 000 долларов.
Согласно информации, предоставленной организацией, самые популярные модели ИИ на рынке не смогли преодолеть отметку в 4% на ARC-AGI-2, тогда как люди без труда справляются с этим тестом.
«Сегодня мы рады запустить ARC-AGI-2, чтобы бросить вызов новому фронтиру,» — говорится в объявлении. «ARC-AGI-2 ещё более сложен для ИИ (в частности, систем рассуждений ИИ), сохраняя при этом ту же относительную лёгкость для людей.»
ARC-AGI-2 — это второе издание эталона организации, ARC-AGI-1, запущенного в 2019 году. На предыдущем тесте только OpenAI’s o3 успешно набрал 85% в декабре 2024 года.
Эта новая версия сосредоточена на задачах, которые легко решаются людьми и сложны для AI моделей, или до сих пор были невозможными. В отличие от других бенчмарков, ARC-AGI-2 не учитывает навыки уровня доктора наук или сверхчеловеческие способности, вместо этого задачи оценивают способность к адаптации и навыки решения проблем путем применения существующих знаний.
Arc Prize объяснила, что каждая задача в тесте была решена людьми менее чем за 2 попытки, и AI модели должны соответствовать аналогичным правилам, учитывая наименьшие затраты. Тест включает символическую интерпретацию — AI модели должны понимать символы, идущие за рамки визуальных паттернов, учитывая одновременные правила и правила, которые меняются в зависимости от контекста — что-то, в чем большинство систем рассуждения AI терпят неудачу.
Организация провела тестирование нового бенчмарка с участием людей и публичных моделей AI. Человеческие группы набрали 100% и 60%, в то время как популярные фронтовые системы, такие как R1 и R1-zero от DeepSeek, набрали 0.3%, а чистый LLM и o3-mini-high от GPT-4.5 — 0.0%. o3-low от OpenAI, используя цепочку мыслительного процесса, поиск и синтез, достигли оценки в 4% при высокой стоимости за задачу.
Arc Prize также запустил последний конкурс с открытым исходным кодом, ARC Prize 2025, который проходит с марта по ноябрь на популярной онлайн-платформе Kaggle. Первой команде, которая достигнет оценки выше 85% — и эффективности $2.5/задача — на бенчмарке ARC-AGI-2, достанется главный приз в $700,000. Также будут вручены награды за научные статьи и другие призы за высокие оценки.
Фонд сообщил, что более подробная информация будет предоставлена на официальном сайте и в ближайшие дни.
Оставьте комментарий
Отменить