Новое исследование выявило шокирующие пробелы в эмпатии у ИИ

14.10.2024

Исследования показывают, что диалоговые агенты (CA), такие как Alexa и Siri, менее эффективны, чем люди, в интерпретации и изучении пользовательского опыта и могут проявлять предвзятость.

Разговорные агенты (CA), такие как Alexa и Siri, предназначены для ответов на вопросы, предоставления рекомендаций и выражения сочувствия. Однако новое исследование показывает, что они не справляются с задачей интерпретации и понимания пользовательского опыта так же эффективно, как люди.

Центры сертификации основаны на больших языковых моделях (LLM), которые обучаются на огромных объемах данных, созданных человеком, и поэтому могут наследовать те же предубеждения, что и люди, создавшие эти данные. Исследователи из Корнеллского университета, Олин-колледжа и Стэнфордского университета проверили эту теорию, поручив CA проявлять сочувствие в беседах с 65 различными личностями.

Ценностные суждения и вредные идеологии Команда обнаружила, что CA делают оценочные суждения об определённых идентичностях, таких как геи и мусульмане, и могут поддерживать идентичности, связанные с вредными идеологиями, включая нацизм.

Ведущий автор Андреа Куадра, ныне постдокторант в Стэнфорде, сказал:

Я считаю, что автоматизированная эмпатия может оказать значительное влияние и имеет огромный потенциал для положительных результатов – например, в образовании или здравоохранении. Маловероятно, что автоматическое сочувствие не будет развиваться, поэтому важно критически относиться к его внедрению, чтобы минимизировать потенциальный вред.

Куадра представит доклад «Иллюзия эмпатии? Заметки о проявлениях эмоций во взаимодействии человека с компьютером» на конференции CHI '24 Ассоциации вычислительной техники по человеческому фактору в вычислительных системах, которая пройдет с 11 по 18 мая в Гонолулу. Соавторами исследования в Корнеллском университете являются доцент Никола Делл, профессор информатики Дебора Эстрин и доцент Малте Юнг.

Эмоциональные реакции против интерпретаций Исследователи обнаружили, что, в целом, магистранты получили высокие оценки за эмоциональные реакции, но низкие – за интерпретацию и исследование. Другими словами, LLM могут ответить на запрос на основе обучения, но не способны глубже анализировать ситуацию.

Делл, Эстрин и Юнг отметили, что их заинтересовало исследование Куадры, посвященное использованию CA предыдущего поколения пожилыми людьми.

Она наблюдала интересное использование технологии для транзакционных целей, таких как оценка состояния здоровья, а также для воспоминаний. При этом она увидела явные примеры конфликта между поверхностной и тревожной "эмпатией".

Теги: