ChatGPT заменит докторов? Нейросеть демонстрирует высокую точность в медицинских вопросах

Ученые из Mass General Brigham провели исследование, результаты которого свидетельствуют о том, что ChatGPT демонстрирует точность около 72% в широком спектре клинических решений: от предполагаемых диагнозов до окончательной диагностики и стратегий управления лечением. Этот искусственный интеллектуальный чат-бот, основанный на мощной модели обработки языка, стабильно продемонстрировал свою производительность как в области первичной, так и в неотложной медицинской помощи, охватывая различные медицинские дисциплины. Полученные результаты были недавно опубликованы в Journal of Medical Internet.

Марк Суччи, доктор медицинских наук, заместитель председателя по инновациям, коммерциализации и стратегическим инновациям в Mass General Brigham и исполнительный директор инкубатора MESH, отметил:

Мы не ищем точного равновесия, но мы оцениваем эту производительность на уровне медицинских выпускников, как интернов или резидентов. Это указывает на то, что LLM может быть дополнительным инструментом в медицинской практике и способствовать точным клиническим решениям.

Прогресс искусственного интеллекта трансформирует множество отраслей, включая медицину. Однако полная способность LLM в поддержке медицинских процессов до сих пор не была изучена. В рамках комплексного исследования роли LLM в клиническом консультировании и принятии решений Суччи и его команда исследовали, насколько ChatGPT может применяться на протяжении всего пути лечения пациента, предоставляя рекомендации по диагностике, управлению и окончательной диагнозу.

Исследование осуществлялось путем ввода 36 стандартизированных клинических случаев в ChatGPT. В начале боту предоставлялась информация о пациенте — возрасте, поле, симптомах и срочности. Затем ChatGPT давал рекомендации по дифференциальной диагностике, тестированию, окончательному диагнозу и управлению, моделируя процесс заботы о пациенте. Результаты сравнивались с профессиональными медицинскими решениями, применяя линейную регрессию для изучения влияния демографических факторов на эффективность ChatGPT.

Исследование показало, что ChatGPT демонстрирует общую точность около 72%, а лучше всего он справляется с постановкой окончательного диагноза (77%). Его результаты при дифференциальной диагностике оказались менее точными — 60%. При принятии управленческих решений, таких как назначение лекарств после правильного диагноза, он проявил точность на уровне 68%. Результаты также указывают на стабильность эффективности ChatGPT как в первичной, так и в неотложной помощи.

Эксперты отмечают, что прежде чем внедрять такие инструменты, как ChatGPT, в клиническую практику, требуются дополнительные исследования и нормативные рекомендации. Однако Mass General Brigham продолжает исследовать способы использования искусственного интеллекта для улучшения медицинской помощи и результатов лечения. Внедрение ИИ в здравоохранение становится новаторским и может значительно повлиять на медицинскую практику.