Ученые из Mass General Brigham провели исследование, результаты которого свидетельствуют о том, что ChatGPT демонстрирует точность около 72% в широком спектре клинических решений: от предполагаемых диагнозов до окончательной диагностики и стратегий управления лечением. Этот искусственный интеллектуальный чат-бот, основанный на мощной модели обработки языка, стабильно продемонстрировал свою производительность как в области первичной, так и в неотложной медицинской помощи, охватывая различные медицинские дисциплины. Полученные результаты были недавно опубликованы в Journal of Medical Internet.
Марк Суччи, доктор медицинских наук, заместитель председателя по инновациям, коммерциализации и стратегическим инновациям в Mass General Brigham и исполнительный директор инкубатора MESH, отметил:
Мы не ищем точного равновесия, но мы оцениваем эту производительность на уровне медицинских выпускников, как интернов или резидентов. Это указывает на то, что LLM может быть дополнительным инструментом в медицинской практике и способствовать точным клиническим решениям.
Прогресс искусственного интеллекта трансформирует множество отраслей, включая медицину. Однако полная способность LLM в поддержке медицинских процессов до сих пор не была изучена. В рамках комплексного исследования роли LLM в клиническом консультировании и принятии решений Суччи и его команда исследовали, насколько ChatGPT может применяться на протяжении всего пути лечения пациента, предоставляя рекомендации по диагностике, управлению и окончательной диагнозу.
Исследование осуществлялось путем ввода 36 стандартизированных клинических случаев в ChatGPT. В начале боту предоставлялась информация о пациенте — возрасте, поле, симптомах и срочности. Затем ChatGPT давал рекомендации по дифференциальной диагностике, тестированию, окончательному диагнозу и управлению, моделируя процесс заботы о пациенте. Результаты сравнивались с профессиональными медицинскими решениями, применяя линейную регрессию для изучения влияния демографических факторов на эффективность ChatGPT.
Исследование показало, что ChatGPT демонстрирует общую точность около 72%, а лучше всего он справляется с постановкой окончательного диагноза (77%). Его результаты при дифференциальной диагностике оказались менее точными — 60%. При принятии управленческих решений, таких как назначение лекарств после правильного диагноза, он проявил точность на уровне 68%. Результаты также указывают на стабильность эффективности ChatGPT как в первичной, так и в неотложной помощи.
Эксперты отмечают, что прежде чем внедрять такие инструменты, как ChatGPT, в клиническую практику, требуются дополнительные исследования и нормативные рекомендации. Однако Mass General Brigham продолжает исследовать способы использования искусственного интеллекта для улучшения медицинской помощи и результатов лечения. Внедрение ИИ в здравоохранение становится новаторским и может значительно повлиять на медицинскую практику.