По данным The Information, OpenAI показала новую мультимодальную ИИ-модель нескольким клиентам, которая способна вести диалог и распознавать объекты. Предполагается, что она может быть представлена на мероприятии, запланированном на 13 мая, в 20:00 мск.
Новая модель обеспечивает более быструю и точную интерпретацию изображений и аудио, чем существующие ИИ-модели для транскрипции и преобразования текста в речь. По мнению The Information, она может помочь сотрудникам службы поддержки лучше понимать интонацию звонящих и определять их сарказм. Теоретически модель может помочь студентам в решении задач по математике или переводе реальных обозначений. Источники также утверждают, что новая ИИ-модель может быть более эффективной в ответах на некоторые типы вопросов, чем GPT-4 Turbo, но она может быть более подвержена ошибкам.
По словам разработчика Ananay Arora, OpenAI также готовится добавить функцию телефонных звонков для чат-бота ChatGPT. Он заявил, что у OpenAI уже есть доказательства использования серверов для аудио- и видеосвязи в реальном времени.
Стоит отметить, что модель GPT-5, если она будет выпущена на следующей неделе, не получит этой функции, поскольку гендиректор Sam Altman отрицает связь предстоящего мероприятия с GPT-4 и опроверг слухи о представлении новой поисковой системы на базе ИИ.