В прошлом месяце OpenAI представила свою самую совершенную модель обучения, предназначенную для создания чат-ботов с искусственным интеллектом — GPT-4. Компания утверждает, что бот, который использует машинное обучение для создания текста в стиле естественного языка, исключительно хорошо показал себя на различных экзаменах. В частности, он набрал 90% на экзамене по адвокатуре и получил почти идеальный результат на вербальном тесте GRE.

Академикам из Университета Бригама Янга (BYU) и 186 других учебных заведений стало интересно узнать, как технология OpenAI работает на экзаменах по бухгалтерскому учету. Следовательно, они подвергли ChatGPT тестированию. Исследователи заявили, что, хотя ChatGPT по-прежнему требует улучшения в области бухгалтерского учета, он может революционизировать то, как люди преподают и учатся, к лучшему.

Ведущий автор исследования Дэвид Вуд, профессор бухгалтерского учета, сказал:

Когда эта технология впервые появилась, все были обеспокоены тем, что студенты теперь могут использовать ее для мошенничества. Но возможности обмана существовали всегда. Что касается нас, мы пытаемся сосредоточиться на том, что мы можем сделать с этой технологией сейчас, что мы не могли сделать раньше, чтобы улучшить процесс обучения для преподавателей и процесс обучения для студентов. Тестирование открыло глаза.

С момента своего дебюта в ноябре 2022 года ChatGPT стала самой быстрорастущей технологической платформой, достигнув 100 миллионов пользователей менее чем за два месяца. В ответ на интенсивные дебаты о том, как такие модели, как ChatGPT, должны влиять на образование, Вуд решил нанять как можно больше профессоров, чтобы увидеть, как ИИ сравнится с реальными студентами-бухгалтерами университетов.

Его призыв к совместному исследования собрал невероятный отклик: 327 соавторов из 186 учебных заведений в 14 странах приняли участие в исследовании, ответив на 25 181 экзаменационный вопрос по бухгалтерскому учету. Они также наняли студентов, чтобы они отправили в ChatGPT еще 2268 тестовых вопросов по учебникам. Вопросы касались систем бухгалтерской информации (АИС), аудита, финансового учета, управленческого учета и налогообложения и различались по сложности и типу (верно/неверно, множественный выбор, краткий ответ и т. д.).

Хотя производительность ChatGPT была впечатляющей, студенты справились лучше. Студенты набрали в среднем 76,7%, по сравнению с 47,4% ChatGPT. По 11,3% вопросов ChatGPT набрал больше баллов, чем средний студент, особенно хорошо справившись с AIS и аудитом. Но ИИ-бот хуже справлялся с налоговыми, финансовыми и управленческими оценками, возможно, потому, что ChatGPT боролся с математическими процессами, необходимыми для последнего типа.

Что касается типа вопроса, ChatGPT лучше справлялся с вопросами "верно/неверно" (68,7% правильных ответов) и вопросами с несколькими вариантами ответов (59,5%), но испытывал трудности с вопросами с короткими ответами (от 28,7% до 39,1%). В целом ChatGPT было труднее ответить на вопросы более высокого порядка. На самом деле иногда ChatGPT предоставлял авторитетные письменные описания неправильных ответов или отвечал на один и тот же вопрос по-разному.

В ходе исследования авторы также обнаружили некоторые другие интересные тенденции, в том числе:

  • ChatGPT не всегда распознает математические операции и допускает бессмысленные ошибки, такие как сложение двух чисел в задаче на вычитание или неправильное деление чисел.
  • ChatGPT часто дает пояснения к своим ответам, даже если они неверны. В других случаях описания ChatGPT точны, но затем он продолжает выбирать неправильный ответ с несколькими вариантами ответов.
  • ChatGPT иногда выдумывает факты. Например, при предоставлении ссылки создается реальная ссылка, которая полностью сфабрикована. Произведения, а иногда и авторов, даже не существует.


Тем не менее, авторы полностью ожидают, что GPT-4 экспоненциально улучшит бухгалтерские вопросы, поставленные в их исследовании, и проблемы, упомянутые выше. Что они считают наиболее многообещающим, так это то, как чат-бот может помочь улучшить преподавание и обучение, включая возможность разрабатывать и тестировать задания или, возможно, использовать его для составления частей проекта.

По их словам, это возможность задуматься о том, насколько полно преподаватели раскрывают материал, освещая дополнительные вопросы и проблемы.