DeepSeek выпускает открытый мультимодальный модель Janus-Pro-7B

обгоняя Stable Diffusion и DALL-E 3
28 января компания DeepSeek анонсировала открытый выпуск своей новой мультимодальной модели Janus-Pro-7B. Модель продемонстрировала лучшие результаты в тестах GenEval и DPG-Bench, обойдя Stable Diffusion и DALL-E 3 от OpenAI.
Инновационная автогенеративная архитектура
Janus-Pro является инновационной автогенеративной архитектурой, которая обеспечивает единую обработку мультимодальной информации. В отличие от традиционных подходов, Janus-Pro разделяет процесс визуальной кодировки на несколько независимых путей, что позволяет преодолеть ограничения предыдущих моделей, при этом весь процесс обрабатывается с помощью единой архитектуры трансформера. Этот метод декомпозиции эффективно устраняет потенциальные конфликты в процессе кодирования изображений и повышает гибкость модели.
Производительность, превосходящая традиционные модели
Производительность Janus-Pro превышает традиционные модели и также показывает превосходные результаты в сравнении с моделями, ориентированными на конкретные задачи. Благодаря своей простоте, высокой гибкости и эффективности, Janus-Pro является серьезным конкурентом для модели следующего поколения, объединяющей мультимодальные данные.
Единая мультимодальная большая языковая модель
Janus-Pro — это единая мультимодальная большая языковая модель (MLLM), которая достигает более эффективной обработки путем разделения процесса визуальной кодировки и мультимодальной генерации. Janus-Pro построен на базе DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Для задач мультимодального понимания Janus-Pro использует визуальный кодировщик SigLIP-L, поддерживающий ввод изображений с разрешением 384 x 384 пикселей. Для задач генерации изображений Janus-Pro использует токенизатор с понижением разрешения 16.
Усовершенствованная версия и улучшения
Janus-Pro является улучшенной версией предыдущей модели Janus. Он включает в себя оптимизированные стратегии обучения, расширенные обучающие данные и более масштабную модель. Эти улучшения привели к значительному прогрессу в понимании мультимодальной информации и генерации текста в изображения, а также улучшили стабильность генерации изображений.
Архитектура JanusFlow
JanusFlow представляет собой минималистичную архитектуру, которая объединяет автогенеративную языковую модель и коррекционный поток, передовой метод генеративных моделей. Исследования показали, что коррекционный поток можно обучать непосредственно в рамках большой языковой модели без сложных архитектурных изменений. Множество экспериментов показали, что JanusFlow демонстрирует результаты, сопоставимые или даже лучшие, чем специализированные модели в соответствующих областях, значительно превосходя существующие унифицированные методы в стандартных тестах. Эта работа представляет собой шаг к созданию более эффективных и универсальных моделей для визуальных языков.
Резюме
Открытая модель Janus-Pro-7B от DeepSeek, благодаря своей инновационной автогенеративной архитектуре и разделению процесса визуальной кодировки, превосходит Stable Diffusion и DALL-E 3 в задачах мультимодального понимания и генерации. Выпуск Janus-Pro не только подтверждает лидерство DeepSeek в области технологий, но и предоставляет мощные инструменты для разработчиков, стимулируя развитие мультимодальных моделей.

Конкретный адрес:GitHub 和 HuggingFace