Боты ИИ перегружают серверы Википедии

Image by Oberon Copeland, from Unsplash

Боты ИИ перегружают серверы Википедии

Время для прочтения: 2 мин.

Фонд Wikimedia выразил озабоченность по поводу увеличивающегося давления на его серверы из-за автоматизированных ботов, собирающих данные для обучения моделей искусственного интеллекта.

Спешите? Вот основные факты:

  • AI боты сканируют контент Wikimedia на рекордных уровнях.
  • Боты вызвали рост использования мультимедийной пропускной способности на 50%.
  • 65% трафика с высокой стоимостью теперь поступает от краулеров.

Фонд сообщил в недавнем посте, что машинно-генерируемый трафик продолжает увеличиваться с необычайной скоростью, тогда как люди составляют лишь небольшую часть этого трафика.

«С января 2024 года мы наблюдаем рост использования пропускной способности для загрузки мультимедийного контента на 50%», — говорится в сообщении.

«Этот рост не связан с активностью человеческих пользователей, а в основном обусловлен автоматизированными программами, которые извлекают из каталога изображений Wikimedia Commons открыто лицензированные изображения для обучения AI моделей», — добавили в сообщении.

Боты, известные как краулеры, крадут большие объемы данных из проектов Wikimedia, включая Википедию и Wikimedia Commons, без должного признания или официальных инструментов доступа. Этот процесс затрудняет для новых пользователей открытие для себя Wikimedia и создает чрезмерную нагрузку на их технические системы.

Например, в сообщении упоминается, что страница Джимми Картера в Википедии получила более 2,8 миллиона просмотров в день его смерти в декабре 2024 года. Видео дебатов 1980 года вызвало значительное увеличение трафика на сайте. Видео его дебатов 1980 года также спровоцировало всплеск трафика. Wikimedia справилась с этим, но едва ли. Главная проблема, по мнению инженеров, — это непрерывный поток трафика от ботов.

«65% нашего самого дорогого трафика приходится на ботов,» написал Фонд. Боты «массово читают» контент, особенно менее популярные страницы, что вызывает дорогие запросы к основным дата-центрам Wikimedia.

Хотя контент Wikimedia бесплатен, его серверы — нет. «Наш контент бесплатен, наша инфраструктура — нет,» сказал Фонд. Команда продолжает разрабатывать методы для продвижения «ответственного использования инфраструктуры», призывая разработчиков использовать API, вместо того чтобы скрейпить весь сайт.

Проблема затрагивает Wikimedia, а также множество других сайтов и издателей. Но для крупнейшей в мире платформы открытых знаний, она угрожает стабильности сервисов, на которые полагаются миллионы людей.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...