ChatGPT смог сдать экзамен на рентгенолога

Согласно двум новым исследованиям, опубликованным в Radiology, журнале Рентгенологического общества Северной Америки (RSNA), последняя версия ChatGPT прошла экзамен в стиле рентгенологической комиссии, подчеркнув потенциал больших языковых моделей, но также выявив ограничения, которые снижают полезность ответов.

ChatGPT — это чат-бот с искусственным интеллектом (ИИ), который использует модель глубокого обучения для распознавания шаблонов и взаимосвязей между словами в своих обширных данных обучения, чтобы генерировать ответы, подобные человеческим, на основе подсказки. Но поскольку в его обучающих данных нет источника истины, инструмент может генерировать фактически неверные ответы.

Ведущий автор Раджеш Бхайана, доктор медицинских наук, FRCPC, абдоминальный рентгенолог и руководитель технического отдела Университета медицинской визуализации Торонто, говоря о проделанной работе, отметил следующее:

Использование больших языковых моделей, таких как ChatGPT, стремительно растет, и будет только расти. Наше исследование дает представление о производительности ChatGPT в контексте радиологии, подчеркивая невероятный потенциал больших языковых моделей, а также текущие ограничения, которые делают его ненадежным. ChatGPT недавно был назван самым быстрорастущим потребительским приложением в истории, и подобные чат-боты внедряются в популярные поисковые системы, такие как Google и Bing, которые врачи и пациенты используют для поиска медицинской информации.

Чтобы оценить его эффективность в ответах на экзаменационные вопросы совета рентгенологов и изучить сильные и слабые стороны, д-р Бхаяна и его коллеги сначала протестировали ChatGPT на основе GPT-3.5, в настоящее время наиболее часто используемой версии. Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по рентгенологии.

Вопросы не включали изображения и были сгруппированы по типам, чтобы получить представление о производительности: мышление более низкого порядка (воспоминание знаний, базовое понимание) и более высокого порядка (применение, анализ, синтез). Вопросы мышления более высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием).

Качество работы ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в языке в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде. Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89). В частности, его ставили в тупик вопросы связанные с описанием результатов визуализации (61%, 28 из 46), расчетом и классификацией (25%, 2 из 8) и применением концепций (30%, 3 из 10). Его плохие результаты в вопросах мышления более высокого порядка неудивительны, учитывая отсутствие предварительной подготовки, связанной с радиологией.

GPT-4 был выпущен в марте 2023 года в ограниченной форме для платных пользователей, в частности, заявляя, что он обладает улучшенными расширенными возможностями рассуждений по сравнению с GPT-3.5. В последующем исследовании GPT-4 правильно ответил на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%), в частности, в вопросах, связанных с описанием результатов визуализации (85%) и применением понятий (90%).

Полученные данные свидетельствуют о том, что заявленные улучшенные способности GPT-4 к расширенным рассуждениям приводят к повышению производительности в контексте радиологии. Они также предлагают улучшенное контекстуальное понимание терминологии, относящейся к радиологии, включая описания изображений, что имеет решающее значение для обеспечения возможности будущих последующих приложений.

Авторы работы считают, что исследование демонстрирует впечатляющее улучшение производительности ChatGPT в рентгенологии за короткий период времени, подчеркивая растущий потенциал больших языковых моделей в этом контексте. GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает вопросы, связанные с его надежностью для сбора информации.

Опасная тенденция ChatGPT давать неточные ответы, называемые галлюцинациями, менее распространена в GPT-4, но в настоящее время все еще ограничивает возможности использования в медицинском образовании и практике.

Оба исследования показали, что ChatGPT постоянно использует уверенный язык, даже если он неправильный. Это особенно опасно, если полагаться исключительно на информацию, отмечает доктор Бхаяна, особенно для новичков, которые могут не распознать уверенные неправильные ответы как неточные.

Авторам исследования этот "нюанс" работы ИИ показался самой значительной проблемой. В настоящее время ChatGPT лучше всего использовать для поиска идей, помощи в написании медицинских текстов и обобщении данных. Однако, если использовать нейросеть для быстрого извлечения информации, его всегда необходимо перепроверять.