
Photo by Sebastien Bonneval on Unsplash
Американские исследователи создают продвинутую модель рассуждения за менее чем 50 долларов
Исследователи в области ИИ из Университета Вашингтона и Стэнфорда обучили модель ИИ для решения задач за менее чем 50 долларов — в кредитах облачных вычислений — под названием s1. В понедельник команда опубликовала статью под названием s1: Простое масштабирование во время тестирования, в которой подробнее описывается их методология.
Спешите? Вот основные факты!
- Исследователи в области ИИ из Университета Вашингтона и Стэнфорда обучили модель ИИ для решения задач меньше чем за 50 долларов и поделились своими исследованиями в этот понедельник.
- Они использовали метод дистилляции, масштабирование во время теста и подход к корректировке обучения под руководством специалиста, с использованием набора данных из 1000 вопросов.
- Модель s1 работает примерно так же, как DeepSeek R1 и OpenAI o1.
Согласно TechCrunch, новая модель работает на уровне современных моделей, таких как R1 от DeepSeek или o1 от OpenAI, и доступна на GitHub.
Для разработки модели ИИ исследователи применили процесс, известный как дистилляция — когда большая модель ИИ предоставляет данные меньшей модели — получая способности к рассуждению от Google’s Gemini 2.0 Flash Thinking Experimental.
Этот процесс набирает популярность в индустрии ИИ, поскольку OpenAI утверждает, что DeepSeek использовала этот процесс, без разрешения, для разработки своей продвинутой модели рассуждения. Исследователи из UC Berkeley из Лаборатории Sky Computing также недавно смогли обучить модель рассуждения за меньше, чем $450 с помощью этой техники, что вызывает дебаты в Кремниевой долине и негодование среди крупных компаний ИИ.
Исследователи, разрабатывающие модель s1, также приняли во внимание подход «масштабирования во время тестирования», заставляя модель останавливаться и размышлять больше перед тем, как дать ответ. Они также провели надзорную доводку из предварительно обученной модели для построения своей модели ИИ, основанной на рассуждении.
“Мы разрабатываем метод принуждения к бюджету для контроля вычислений во время тестирования, принудительно завершая процесс мышления модели или удлиняя его, добавляя ‘Подождите’ несколько раз в генерацию модели, когда она пытается закончить», — говорится в статье. «Это может заставить модель перепроверить свой ответ, часто исправляя некорректное рассуждение.»
Эксперты использовали набор данных из 1000 отобранных вопросов и ответов для обучения своей модели менее чем за 30 минут, используя графические процессоры Nvidia H100. Это демонстрирует, что возможно достичь продвинутых результатов с небольшой базой данных, используя преимущества других технологий и моделей искусственного интеллекта.
«Недавние достижения в области рассуждений, такие как o1 от OpenAi и R1 от DeepSeek, обладают недостаточной прозрачностью, что ограничивает прогресс в более широких исследованиях», — написали исследователи. «Наша работа направлена на расширение границ рассуждения в полностью открытой форме, содействуя инновациям и сотрудничеству для ускорения прогресса, который в конечном итоге будет на пользу обществу».
Оставьте комментарий
Отменить