Самые популярные и продвинутые модели ИИ, такие как ChatGPT, известные как большие языковые модели (LLM), используют обширные репозитории написанного человеком текста из Интернета для создания статистической модели человеческого языка, чтобы они могли предсказать, какие слова, скорее всего, будут следующими в предложении. С тех пор как они стали доступны, Интернет наводнили тексты, сгенерированные ИИ, но пока неясно, как это повлияет на будущие ИИ.
Недавно, группа ученых из Оксфордского университета обнаружила, что модели ИИ, обученные с использованием результатов других ИИ, становятся сильно предвзятыми, чрезмерно простыми и оторванными от реальности — проблема, которую они называют коллапсом модели.
Этот сбой происходит из-за того, как модели ИИ статистически представляют текст. ИИ, который видит фразу или предложение много раз, скорее всего, повторит эту фразу в выводе и с меньшей вероятностью создаст что-то, что он редко видел. Когда новые модели затем обучаются на тексте от других ИИ, они видят лишь небольшую часть возможных выходных данных исходного ИИ. Это подмножество вряд ли будет содержать более редкие результаты, поэтому новый ИИ не будет учитывать их в своих собственных возможных результатах. Модель также не может определить: соответствует ли текст, сгенерированный ИИ, который он видит, реальности, что может привести к еще большей дезинформации, чем текущие модели.
По мере того, как этот процесс повторяется, в конечном итоге мы скатываемся к такому состоянию безумия, когда это просто ошибки, ошибки и ошибки, и величина ошибок намного выше всего остального, говорят авторы.
Недостаток достаточно разнообразных обучающих данных усугубляется недостатками самих моделей и способов их обучения, которые, в первую очередь, не всегда идеально представляют исходные данные. Исследователи наглядно показали, что это приводит к коллапсу модели для множества различных моделей ИИ.
Насколько быстро происходит этот процесс, зависит от количества сгенерированного ИИ контента в обучающих данных ИИ и от того, какую модель он использует, но все модели, подвергающиеся воздействию данных ИИ, в конечном итоге рушатся. Единственный способ обойти это — пометить и исключить результаты, созданные ИИ. Но это невозможно сделать надежно, если только у вас нет единого интерфейса, в котором люди вводят свои запросы.