Хотя обсуждения вокруг "галлюцинаций" генеративного ИИ (когда он придумывает несуществующие данные) идут уже давно, многие удивлены, что эта проблема проявилась в области транскрипции. Казалось бы, преобразование аудио в текст должно точно передавать услышанное.
Однако, по словам исследователей, Whisper иногда добавляет в текст неожиданные элементы: от расовых комментариев до выдуманных медицинских рекомендаций. В больницах и других важных учреждениях такие ошибки могут иметь особенно серьезные последствия.
Например, исследователь из Мичиганского университета, который работает с записями публичных собраний, нашел ошибки в восьми из десяти транскрипций. Инженер по машинному обучению выявил галлюцинации более чем в половине из сотни часов обработанного аудио. Один разработчик обнаружил такие ошибки почти во всех из 26 000 транскрипций, созданных с помощью Whisper.
В OpenAI подтвердили, что работают над улучшением точности своих моделей и минимизацией галлюцинаций. Представитель компании отметил, что политика использования Whisper запрещает применять его в ситуациях, где ошибки могут иметь критические последствия.