В линейку Phi 3.5 вошли три модели: компактная Phi-3.5-mini-instruct с 3,82 млрд параметров, более мощная Phi-3.5-MoE-instruct с 41,9 млрд параметров и Phi-3.5-vision-instruct на 4,15 млрд параметров, разработанная для анализа изображений и видео. Все они доступны на Hugging Face с открытой лицензией MIT, позволяющей скачивать, настраивать и использовать их в коммерческих проектах без ограничений. В тестах эти модели показывают результаты, сопоставимые с решениями от Google, Meta и OpenAI, а иногда даже превосходят их.

Phi-3.5 Mini Instruct — легкая модель, оптимизированная для устройств с ограниченными ресурсами. Она может выполнять задачи вроде генерации кода, решения математических проблем и анализа сложных логических запросов, при этом поддерживая контекст длиной до 128 тыс. токенов. Несмотря на небольшой размер, модель успешно конкурирует в многоязычных задачах и опережает такие модели, как Llama-3.1-8B-instruct и Mistral-7B-instruct, особенно в тестах, связанных с пониманием длинных контекстов.

Phi-3.5 MoE (Mixture of Experts) сочетает в себе несколько экспертных моделей, каждая из которых отвечает за определенные задачи. Эта модель с 42 млрд параметров особенно эффективна при работе с большими контекстами (до 128 тыс. токенов) и подходит для сложных вычислений. Хотя документация Hugging Face указывает на 6,6 млрд активных параметров, модель показывает высокие результаты в тестах на генерацию кода и понимание запросов, порой обгоняя даже более крупные системы. В частности, Phi-3.5 MoE превосходит GPT-4o mini в тестах на понимание естественных наук, технических дисциплин, а также гуманитарных и социальных знаний.

Phi-3.5 Vision Instruct сочетает обработку текста и изображений, что делает её пригодной для распознавания символов, анализа диаграмм и работы с видео. Поддержка длинного контекста (до 128 тыс. токенов) позволяет модели справляться с многослойными визуальными задачами. Модель обучалась на синтетических и тщательно отфильтрованных данных, что обеспечило её способность к глубокому анализу.

Для обучения Phi-3.5 Mini Instruct потребовалось 10 дней и 512 ускорителей Nvidia H100-80G, обработавших 3,4 трлн токенов. Phi-3.5 MoE обучалась на 4,9 трлн токенов за 23 дня с использованием тех же 512 ускорителей. Для Vision Instruct обучение заняло 6 дней с использованием 256 ускорителей Nvidia A100-80G на 500 млрд токенов. Все три модели доступны по лицензии MIT, которая предоставляет полную свободу в использовании, модификации и распространении этих технологий. Важно отметить, что Microsoft и другие правообладатели снимают с себя любую ответственность за возможные риски при использовании моделей, так как они предоставляются "как есть" без гарантий.