Image by Oberon Copeland, from Unsplash

Боты ИИ перегружают серверы Википедии

Время для прочтения: 2 мин.

Последние обновления: Apr 7, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Фонд Wikimedia выразил озабоченность по поводу увеличивающегося давления на его серверы из-за автоматизированных ботов, собирающих данные для обучения моделей искусственного интеллекта.

Спешите? Вот основные факты:

AI боты сканируют контент Wikimedia на рекордных уровнях.
Боты вызвали рост использования мультимедийной пропускной способности на 50%.
65% трафика с высокой стоимостью теперь поступает от краулеров.

Фонд сообщил в недавнем посте, что машинно-генерируемый трафик продолжает увеличиваться с необычайной скоростью, тогда как люди составляют лишь небольшую часть этого трафика.

«С января 2024 года мы наблюдаем рост использования пропускной способности для загрузки мультимедийного контента на 50%», — говорится в сообщении.

«Этот рост не связан с активностью человеческих пользователей, а в основном обусловлен автоматизированными программами, которые извлекают из каталога изображений Wikimedia Commons открыто лицензированные изображения для обучения AI моделей», — добавили в сообщении.

Боты, известные как краулеры, крадут большие объемы данных из проектов Wikimedia, включая Википедию и Wikimedia Commons, без должного признания или официальных инструментов доступа. Этот процесс затрудняет для новых пользователей открытие для себя Wikimedia и создает чрезмерную нагрузку на их технические системы.

Например, в сообщении упоминается, что страница Джимми Картера в Википедии получила более 2,8 миллиона просмотров в день его смерти в декабре 2024 года. Видео дебатов 1980 года вызвало значительное увеличение трафика на сайте. Видео его дебатов 1980 года также спровоцировало всплеск трафика. Wikimedia справилась с этим, но едва ли. Главная проблема, по мнению инженеров, — это непрерывный поток трафика от ботов.

«65% нашего самого дорогого трафика приходится на ботов,» написал Фонд. Боты «массово читают» контент, особенно менее популярные страницы, что вызывает дорогие запросы к основным дата-центрам Wikimedia.

Хотя контент Wikimedia бесплатен, его серверы — нет. «Наш контент бесплатен, наша инфраструктура — нет,» сказал Фонд. Команда продолжает разрабатывать методы для продвижения «ответственного использования инфраструктуры», призывая разработчиков использовать API, вместо того чтобы скрейпить весь сайт.

Проблема затрагивает Wikimedia, а также множество других сайтов и издателей. Но для крупнейшей в мире платформы открытых знаний, она угрожает стабильности сервисов, на которые полагаются миллионы людей.

Боты ИИ перегружают серверы Википедии

Мы рады, что вам понравилась наша статья!

Оставьте комментарий