При первом взгляде на заголовки создается впечатление, что генеративный искусственный интеллект стал неотъемлемой частью современности. Некоторые из этих заголовков, на самом деле, могли быть созданы генеративным искусственным интеллектом, таким как ChatGPT от OpenAI, проявивший удивительные способности в создании текста, неотличимого от текста, написанного человеком.
Однако что на самом деле имеется в виду под термином "генеративный ИИ"?
До последнего взлета генеративного ИИ, когда люди упоминали искусственный интеллект, они, как правило, имели в виду модели машинного обучения, способные делать прогнозы на основе данных. Например, такие модели обучаются на миллионах примеров для предсказания признаков опухоли на рентгеновских снимках или вероятности того, что заемщик не сможет погасить кредит.
Генеративный ИИ можно рассматривать как модель машинного обучения, способную создавать новые данные, а не только делать прогнозы по конкретному набору данных. Генеративная система искусственного интеллекта обучается порождать объекты, аналогичные данным, на которых она была обучена.
Несмотря на шум вокруг выпуска ChatGPT и аналогов, сама технология не нова. Эти мощные модели машинного обучения основаны на исследованиях и вычислительных достижениях, произошедших более 50 лет назад.
Одним из ранних примеров генеративного ИИ является более простая модель, известная как цепь Маркова. Этот метод, предложенный русским математиком Андреем Марковым в 1906 году, используется в машинном обучении для прогнозирования следующего слова, например, в функции автозаполнения электронной почты.
Модель Маркова при прогнозировании текста генерирует следующее слово, основываясь на предыдущем слове или нескольких предыдущих. Тем не менее, такие простые модели ограничены в создании правдоподобного текста, утверждает профессор Томми Яаккола из Массачусетского технологического института.
Всего несколько лет назад исследователи сосредотачивались на поиске алгоритма машинного обучения, который наилучшим образом использовал конкретный набор данных. Однако сейчас многие исследователи используют более обширные наборы данных, включающие сотни миллионов или даже миллиарды точек данных, чтобы обучить модели, способные достигать впечатляющих результатов.
Базовые модели, используемые в ChatGPT и аналогичных системах, функционируют примерно так же, как модель Маркова. Однако значительное отличие заключается в том, что ChatGPT гораздо более масштабен и сложен, имея миллиарды параметров. Его обучение произошло на огромном объеме данных, включающем большую часть общедоступного текста в Интернете.
В этом огромном текстовом корпусе слова и предложения появляются последовательно с определенными зависимостями. Это последовательное воспроизведение помогает модели уловить, как разбивать текст на статистически значимые фрагменты с предсказуемыми связями. Модель выявляет закономерности в этих текстовых блоках и использует полученные знания для предположения о том, что может следовать дальше.
Хотя обширные наборы данных были одним из факторов, подстегнувших рост генеративного искусственного интеллекта, ряд важных научных открытий также привели к появлению более сложных архитектур глубокого обучения.
В 2014 году исследователи из Монреальского университета представили генеративно-состязательные сети (GAN). Эти сети включают две модели, работающие совместно: одна создает целевые результаты (например, изображения), а другая обучается различать настоящие данные от сгенерированных. Генератор стремится обмануть дискриминатор и, таким образом, улучшает реалистичность своих результатов. На основе этих моделей создан генератор изображений StyleGAN.
Модели диффузии, представленные исследователями из Стэнфордского университета и Калифорнийского университета в Беркли в 2015 году, обучаются генерировать новые образцы данных, пошагово уточняя результаты. Они способны создавать реалистичные изображения и лежат в основе системы преобразования текста в изображение Stable Diffusion.
В 2017 году исследователи из Google представили архитектуру трансформатора, применяемую для создания крупных языковых моделей, аналогичных тем, что использует ChatGPT. В процессе обработки естественного языка трансформатор кодирует каждое слово текстового корпуса как токен и генерирует карту внимания, отражающую взаимосвязи между токенами. Эта карта внимания помогает трансформатору уловить контекст при генерации нового текста.
Все эти подходы общи в том, что они преобразуют входные данные в набор числовых токенов, представляющих фрагменты данных. Если ваши данные можно представить в этом формате токенов, теоретически можно использовать эти методы для создания новых данных, которые будут выглядеть аналогично.
Это открывает широкий спектр применений для генеративного искусственного интеллекта.
Однако, несмотря на впечатляющие результаты генеративных моделей, они не всегда являются лучшим выбором для всех типов данных. По мнению Деваврата Шаха, профессора в Массачусетском технологическом институте, для задач, включающих прогнозирование структурированных данных, таких как табличные данные в электронных таблицах, генеративные модели искусственного интеллекта обычно уступают традиционным методам машинного обучения.
Среди развивающихся перспектив генеративного искусственного интеллекта также выявляются некоторые проблемы и этические соображения.
На данный момент чат-боты с генеративным искусственным интеллектом успешно применяются в колл-центрах для ответов на вопросы клиентов. Однако это применение поднимает вопросы о возможных увольнениях сотрудников. С появлением таких автоматизированных систем, возникает риск потери рабочих мест, так как человекозаменяющие технологии становятся более распространенными.
Более того, генеративный искусственный интеллект способен наследовать и распространять предвзятости, присутствующие в обучающих данных. Это может привести к усилению негативных явлений, таких как распространение ненависти и создание ложных утверждений. Самым заметным примером является способность моделей к плагиату и генерации контента, который визуально напоминает работы конкретных людей, что ставит под сомнение вопросы авторских прав.
В этом контексте Деваврат Шах подчеркивает, что, несмотря на потенциальные угрозы, генеративный искусственный интеллект может также предоставить новые возможности художникам. Он видит в генеративных инструментах потенциал для помощи художникам в создании творческого контента, на который ранее у них не было средств.
Взгляд в будущее генеративного искусственного интеллекта предполагает, что эта технология изменит экономическую среду в различных областях. Интересным направлением развития, выделяемым Изолой, является применение генеративного искусственного интеллекта в производстве. Вместо того чтобы модель создавала изображение стула, возможно, она сможет создать план стула, который затем можно будет изготовить.
Другая перспектива — использование генеративных систем искусственного интеллекта для разработки более интеллектуальных агентов искусственного интеллекта. В этом контексте генеративный искусственный интеллект представляется инструментом, который может помочь агентам искусственного интеллекта более эффективно выполнять подобные задачи.