Чат-боты с ИИ лучше проявляются себя в творчестве, чем средний человек

Свежее исследование, опубликованное в Scientific Reports, поднимает вопрос о том, могут ли искусственно-интеллектные чат-боты больших языковых моделей (LLM) превзойти человека в творческих задачах, таких как мозговой штурм для поиска альтернативных способов использования обычных предметов, что характеризует дивергентное мышление. Тем не менее, лучшие результаты, достигнутые человеками в этих задачах, до сих пор остаются лучше, чем результаты наиболее продвинутых чат-ботов.

Дивергентное мышление — это тип мыслительного процесса, часто связанный с творческими способностями, при котором акцент делается на создании многочисленных альтернативных идей или решений для конкретной задачи.

Обычно это измеряется с использованием задачи альтернативного использования (Alternative Uses Test, AUT), в которой участников просят придумать как можно больше необычных способов использования обыденных предметов в ограниченное время. Оценка ответов включает в себя анализ насколько ответы отличаются от стандартного использования предметов с точки зрения семантики (связи с первоначальным предназначением предмета) и креативности.

Исследователи Мика Койвисто и Симоне Грассини сравнили ответы 256 человек с ответами трех искусственно-интеллектных чат-ботов (ChatGPT3, ChatGPT4 и Copy.Ai) в рамках задачи AUT для четырех предметов: веревок, коробок, карандашей и свечей. Они оценили оригинальность ответов на основе семантической дистанции (насколько ответ связан с первоначальным использованием предмета) и креативности.

Семантическую дистанцию оценивали с помощью вычислительного метода на шкале от 0 до 2, в то время как эксперты оценивали креативность ответов субъективно по шкале от 1 до 5. В среднем ответы, сгенерированные чат-ботами, получили более высокие оценки как по семантической дистанции (0,95 против 0,91), так и по креативности (2,91 против 2,47) по сравнению с ответами, созданными человеком.

Однако реакции человека варьировались гораздо сильнее по обоим показателям: самые низкие оценки были существенно ниже чем у ботов, но в то же время, самые высокие баллы, как правило, были лучше, чем у ботов. Самый лучший ответ от человека превзошел лучший ответ от каждого из чат-ботов в семи из восьми категорий оценок.

Эти результаты указывают на то, что искусственно-интеллектные чат-боты LLM теперь способны генерировать творческие идеи, сопоставимые с человеческими. Тем не менее, авторы отмечают, что оценивались только результаты одной задачи, связанной с оценкой креативности, и предполагают, что будущие исследования могут рассмотреть, как можно интегрировать искусственный интеллект в творческий процесс для улучшения человеческой производительности.