
Image by Oberon Copeland, from Unsplash
Боты ИИ перегружают серверы Википедии
Фонд Wikimedia выразил озабоченность по поводу увеличивающегося давления на его серверы из-за автоматизированных ботов, собирающих данные для обучения моделей искусственного интеллекта.
Спешите? Вот основные факты:
- AI боты сканируют контент Wikimedia на рекордных уровнях.
- Боты вызвали рост использования мультимедийной пропускной способности на 50%.
- 65% трафика с высокой стоимостью теперь поступает от краулеров.
Фонд сообщил в недавнем посте, что машинно-генерируемый трафик продолжает увеличиваться с необычайной скоростью, тогда как люди составляют лишь небольшую часть этого трафика.
«С января 2024 года мы наблюдаем рост использования пропускной способности для загрузки мультимедийного контента на 50%», — говорится в сообщении.
«Этот рост не связан с активностью человеческих пользователей, а в основном обусловлен автоматизированными программами, которые извлекают из каталога изображений Wikimedia Commons открыто лицензированные изображения для обучения AI моделей», — добавили в сообщении.
Боты, известные как краулеры, крадут большие объемы данных из проектов Wikimedia, включая Википедию и Wikimedia Commons, без должного признания или официальных инструментов доступа. Этот процесс затрудняет для новых пользователей открытие для себя Wikimedia и создает чрезмерную нагрузку на их технические системы.
Например, в сообщении упоминается, что страница Джимми Картера в Википедии получила более 2,8 миллиона просмотров в день его смерти в декабре 2024 года. Видео дебатов 1980 года вызвало значительное увеличение трафика на сайте. Видео его дебатов 1980 года также спровоцировало всплеск трафика. Wikimedia справилась с этим, но едва ли. Главная проблема, по мнению инженеров, — это непрерывный поток трафика от ботов.
«65% нашего самого дорогого трафика приходится на ботов,» написал Фонд. Боты «массово читают» контент, особенно менее популярные страницы, что вызывает дорогие запросы к основным дата-центрам Wikimedia.
Хотя контент Wikimedia бесплатен, его серверы — нет. «Наш контент бесплатен, наша инфраструктура — нет,» сказал Фонд. Команда продолжает разрабатывать методы для продвижения «ответственного использования инфраструктуры», призывая разработчиков использовать API, вместо того чтобы скрейпить весь сайт.
Проблема затрагивает Wikimedia, а также множество других сайтов и издателей. Но для крупнейшей в мире платформы открытых знаний, она угрожает стабильности сервисов, на которые полагаются миллионы людей.
Оставьте комментарий
Отменить