Деградация AI-модели: Новые исследования показывают риски обучения AI на данных, сгенерированных AI
Согласно исследованию, опубликованному 24 июля, качество результатов работы моделей ИИ может ухудшаться по мере того, как количество данных, сгенерированных ИИ, на интернете увеличивается.
Ученые, проводившие это исследование, обнаружили, что модели ИИ, обученные на данных, сгенерированных ИИ, со временем дают все более бессмысленные результаты. Это явление известно как «коллапс модели». Илья Шумайлов, ведущий автор исследования, сравнивает этот процесс с многократным копированием фотографии. “Если вы сделаете снимок и отсканируете его, затем распечатаете, и повторите этот процесс многократно, в итоге шум станет доминирующим во всем процессе, […] Останется только темный квадрат.”
Это ухудшение представляет существенную угрозу для больших моделей ИИ, таких как GPT-3, которые полагаются на огромные объемы данных из Интернета для обучения. Например, GPT-3 был частично обучен на данных из Common Crawl, онлайн-репозитория, содержащего более 3 миллиардов веб-страниц. Проблема усугубляется с распространением онлайн «мусорного» контента, созданного искусственным интеллектом. Этот эффект может быть дополнительно усилен результатами нового исследования, указывающего на растущие ограничения на доступные для обучения ИИ данные.
Научная команда проверила эффекты, тонко настроив большую языковую модель (LLM) на данных из Википедии, а затем обучив ее на своих собственных результатах на протяжении девяти поколений. Они оценивали качество выходных данных с помощью «балла перплексии», который указывает на уверенность модели в предсказании следующей части последовательности. Чем выше балл, тем менее точная модель. Они обнаружили увеличение баллов перплексии в каждом последующем поколении, что подчеркивает деградацию.
Это ухудшение может замедлить прогресс и сказаться на производительности. Например, в одном из тестов, после девяти циклов повторного обучения, модель начала выдавать полный бессмысленный текст.
Одним из способов предотвратить деградацию может быть обеспечение большего веса оригинальным данным, сгенерированным человеком. В другой части исследования Шумайлова было предложено следующим поколениям отбирать 10% изначального набора данных, что позволило смягчить некоторые негативные эффекты.
Обсуждение исследования подчеркивает важность сохранения высококачественных, разнообразных и созданных человеком данных для обучения моделей ИИ. Без тщательного управления, увеличивающаяся зависимость от контента, созданного с помощью ИИ, может привести к снижению производительности и справедливости ИИ. Для решения этой проблемы необходимо сотрудничество между исследователями и разработчиками, чтобы отслеживать происхождение данных (происхождение данных) и гарантировать, что будущие модели ИИ имеют доступ к надежным материалам для обучения.
Однако реализация таких решений требует эффективных методов отслеживания происхождения данных, которые в настоящее время отсутствуют. Хотя существуют инструменты для обнаружения текста, созданного с помощью ИИ, их точность ограничена.
Шумайлов заключает: «К сожалению, у нас больше вопросов, чем ответов […] Но ясно, что важно знать, откуда исходят ваши данные и насколько вы можете им доверять, чтобы они представляли собой репрезентативную выборку данных, с которыми вы работаете.»
Оставьте комментарий
Отменить