OpenAI теперь предоставляет владельцам веб-сайтов возможность запретить сканирование их сайта веб-роботом GPTBot с целью обучения моделей GPT. Это может быть осуществлено через файл Robots.txt или блокировку IP-адреса. Отсеяв содержимое, которое не соответствует исключениям, таким как платные источники или нарушающий политики OpenAI, предоставление доступа GPTBot к сайту может помочь улучшить модели ИИ и их безопасность.

Это может быть первым шагом OpenAI в предоставлении пользователям интернета возможности контролировать использование их данных для обучения языковых моделей. Ранее некоторые платформы пытались внедрить флаги, такие как тег «NoAI», чтобы исключить определенный контент из обучения, но блокировка GPTBot открывает новые перспективы.

Сбор данных для обучения ИИ становится все более спорным, и это вызывает вопросы конфиденциальности данных и согласия пользователей. Компании, занимающиеся искусственным интеллектом, не всегда явно указывают источники данных, и обсуждаются идеи о пометке данных как не предназначенных для обучения. Возможность помечать содержимое как созданное ИИ позволит пользователям узнавать о происхождении информации.

Однако, несмотря на эти шаги, компании, включая OpenAI, пока не обязуются полностью прекратить использование интернет-данных для обучения своих моделей. Вопросы использования данных для обучения ИИ остаются актуальными и будут продолжать обсуждаться.