Исследование показывает: усиление ограничений на использование данных оказывает влияние на обучение ИИ
Новое исследование, проведенное группой ученых из MIT, показывает растущий тренд ограничения использования данных с веб-сайтов для обучения ИИ. В рамках исследования было проанализировано 14 000 веб-доменов, и было обнаружено, что ограничения были установлены на 5% всех данных. Кроме того, более 28% данных от источников наивысшего качества из трех часто используемых наборов данных для обучения ИИ ограничены. Это исследование является первой крупномасштабной продольной проверкой протоколов согласия для веб-доменов, используемых в корпусах для обучения ИИ.
Генеративные системы ИИ, такие как ChatGPT, Gemini и Claude, сильно зависят от огромных объемов данных для эффективной работы. Качество результатов этих ИИ инструментов в значительной степени зависит от качества данных, на которых они обучаются. Исторически сбор этих данных был относительно простым, однако недавний всплеск в области генеративного ИИ привел к напряженности с владельцами данных. Многие владельцы данных недовольны использованием их контента для обучения ИИ без компенсации или должного согласия.
В результате издатели начали активно противостоять этому. Некоторые установили платные стены или изменили свои условия предоставления услуг, чтобы ограничить использование своих данных для обучения ИИ. Другие приняли более радикальные меры, например, заблокировали автоматизированные веб-сканеры, которые компании используют для сбора данных. Юридические действия и ограничения через файлы robots.txt и изменения условий предоставления услуг становятся все более распространенными.
Последствия этого сжатия данных многогранны. Это усложнит разработку систем ИИ, так как они сильно зависят от этих данных для обучения. Ограничения также могут смещать модели ИИ, ограничивая их менее разнообразными наборами данных. Кроме того, могут возникнуть проблемы с авторскими правами, если модели ИИ обучаются на данных, которые веб-сайты не хотят использовать для этой цели.
Ограничения оказывают значительное влияние. За всего один год значительная часть данных с важных веб-сайтов стала ограниченной, и ожидается, что этот тренд продолжится.
Шейн Лонгпре, ведущий автор исследования, заявляет: “Мы наблюдаем быстрое снижение согласия на использование данных в интернете, что повлечет последствия не только для компаний, работающих в области ИИ, но и для исследователей, академического сообщества и некоммерческих организаций».
Это означает, что малые компании, работающие в области искусственного интеллекта, и академические исследователи, которые зависят от свободно доступных наборов данных, могут быть непропорционально затронуты, поскольку у них часто не хватает ресурсов для лицензирования данных непосредственно у издателей.
Например, Common Crawl, набор данных, включающий миллиарды страниц веб-контента и поддерживаемый некоммерческой организацией, был упомянут более чем в 10 000 академических исследованиях, что подчеркивает его критическую роль в исследовательской работе.
Исследование подчеркивает необходимость новых инструментов, которые дадут владельцам сайтов больше контроля над тем, как используются их данные. В идеале, эти инструменты позволили бы им различать коммерческое и некоммерческое использование, разрешая доступ для исследовательских или образовательных целей.
Эта ситуация также служит напоминанием для крупных компаний в области ИИ. Им необходимо найти способы сотрудничества с владельцами данных и предложить им что-то ценное в обмен на доступ. Более устойчивый подход имеет решающее значение для продолжения развития ИИ.
Лонгпре подчеркнула необходимость сотрудничества крупных компаний в области ИИ с владельцами данных и предложения им ценности в обмен на доступ. На протяжении многих лет эти компании рассматривали интернет как «шведский стол данных», не предлагая владельцам данных взамен многого. Однако такой подход не является устойчивым, и по мере того, как владельцы данных становятся более осторожными в отношении своего контента, компаниям, занимающимся ИИ, придется найти способы сотрудничества с ними, чтобы обеспечить продолжение доступа к данным высокого качества.
Оставьте комментарий
Отменить