ИИ-компания выиграла суд у авторов: можно ли обучать нейросети на книгах?

Судья постановил, что сканирование купленных книг для обучения ИИ — это "добросовестное использование". Но пиратский контент под запретом.

Федеральный судья Уильям Олсап вынес неожиданное решение в пользу компании Anthropic, занимающейся разработкой ИИ. Суд постановил, что обучение языковых моделей на оцифрованных версиях легально купленных книг попадает под понятие "добросовестного использования" — даже без разрешения авторов. Это первая победа ИИ-индустрии в подобном споре, но с важной оговоркой: правило работает только для физических книг, которые компания приобрела и отсканировала сама.

Судья подробно разобрал процесс: Anthropic покупала бумажные издания, сканировала их в цифровой формат и использовала для тренировки нейросетей. По его мнению, такое преобразование книги в данные для ИИ достаточно "трансформативно", чтобы не нарушать авторские права. Однако суд отдельно подчеркнул, что миллионы пиратских копий из интернета — это уже перебор, и по ним будет отдельное разбирательство.

Интересно, что судья сравнил обучение ИИ с... школьниками:

Жалобы авторов — это как возмущаться, что ученики, научившись хорошо писать, начнут создавать конкурирующие произведения.

Пока это решение касается только конкретного случая Anthropic, но оно может стать важным прецедентом для всей индустрии. Особенно с учетом того, что параллельно идут другие суды по схожим вопросам.

Что дальше? Anthropic придется ответить за пиратский контент, а авторы, скорее всего, подам апелляцию. Но уже ясно: борьба за права на данные для обучения ИИ только начинается.