С тех пор как искусственный интеллект стал активно обучаться на материалах сети, «Википедия» оказалась в эпицентре этой цифровой гонки. Боты, разработанные для сбора данных, заполонили серверы крупнейшей онлайн-энциклопедии, скачивая статьи и изображения в невероятных объемах. За последние три месяца трафик, сгенерированный такими программами, вырос на 50 %, а нагрузка на инфраструктуру фонда Wikimedia достигла беспрецедентных значений.
По словам представителей Wikimedia, автоматизированные запросы поступают в геометрической прогрессии, причем большая часть ресурсов уходит на загрузку мультимедийного контента с открытой лицензией. Это не только увеличивает расходы, но и ставит под угрозу стабильность работы сайта. Хотя инфраструктура «Википедии» изначально проектировалась для выдерживания пиковых нагрузок во время крупных событий, количество запросов от ботов оказалось слишком высоким.
Особенно боты активны в сборе информации из менее популярных статей, которые обычно получают минимальное количество просмотров от реальных пользователей. Аналитики фонда отмечают, что боты составляют около 65 % от подобного трафика, что значительно превышает их долю среди обычных просмотров (примерно 35 %). Кроме того, они проникают и в критически важные внутренние системы разработчиков, такие как платформы проверки кода и баг-трекеры, создавая дополнительные проблемы.
В ответ на это «Википедия» уже начала вводить индивидуальные ограничения скорости для ИИ-ботов, а некоторые из них и вовсе были заблокированы. Однако такие меры не решают проблему в долгосрочной перспективе. Поэтому фонд Wikimedia разрабатывает стратегию «Ответственного использования инфраструктуры», которая поможет точнее идентифицировать и фильтровать автоматизированный трафик.
Подобные трудности уже возникали у других платформ. В 2023 году Reddit столкнулся с тем, что Microsoft без разрешения использовала его данные для обучения ИИ. Это привело к резкому ужесточению политики и введению платного доступа к API, что вызвало протесты пользователей и разработчиков. Теперь «Википедии» предстоит найти баланс между открытостью знаний и защитой своих ресурсов от неограниченного использования со стороны ИИ.