DeepSeek Lance le Nouveau Modèle Multimodal Visuel Janus-Pro-7B, Dépassant Stable Diffusion et DALL-E 3
Lancement Open-Source de Janus-Pro-7B
Le 28 janvier, DeepSeek a annoncé la sortie open-source du nouveau modèle multimodal visuel Janus-Pro-7B. Ce modèle a surpassé Stable Diffusion et DALL-E 3 d'OpenAI lors des tests de référence GenEval et DPG-Bench, montrant des performances exceptionnelles.
Cadre Autoregressif Innovant
Janus-Pro est un cadre autoregressif innovant qui permet une compréhension et une génération unifiées des informations multimodales. Contrairement aux méthodes précédentes, Janus-Pro résout certaines des limitations des cadres précédents en divisant le processus de codage visuel en plusieurs chemins indépendants, tout en utilisant toujours une architecture de transformateur unifiée pour le traitement. Cette méthode de découplage non seulement atténue les conflits qui pourraient survenir pendant la compréhension et la génération, mais elle améliore également la flexibilité du cadre.
Des Performances Supérieures aux Modèles Traditionnels
Janus-Pro surpasse les modèles unifiés traditionnels et montre également d'excellentes performances dans la comparaison avec des modèles spécifiques aux tâches. Avec sa simplicité, sa grande flexibilité et son efficacité, Janus-Pro est un fort concurrent pour le modèle multimodal unifié de prochaine génération.
Modèle Unifié de Langage Multimodal à Grande Échelle
Janus-Pro est un modèle unifié de langage multimodal à grande échelle (MLLM) qui permet un traitement plus efficace en découplant le processus de codage visuel de la compréhension et de la génération multimodales. Janus-Pro est basé sur le modèle DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Pour les tâches de compréhension multimodale, Janus-Pro utilise SigLIP-L comme encodeur visuel, prenant en charge des entrées d'images de 384x384 pixels. Pour les tâches de génération d'images, Janus-Pro utilise un tokeniseur provenant d'une source spécifique avec un taux de sous-échantillonnage de 16.
Versions Avancées et Améliorations
Janus-Pro est une version avancée du travail précédent, Janus. Plus précisément, Janus-Pro intègre des stratégies d'entraînement optimisées, des données d'entraînement étendues et une extension de l'échelle du modèle plus grande. Grâce à ces améliorations, Janus-Pro a réalisé des progrès significatifs dans la compréhension multimodale et la capacité de suivre les instructions de texte à image, tout en améliorant la stabilité de la génération d'images à partir de texte.
Architecture JanusFlow
Selon la description officielle, JanusFlow introduit une architecture minimaliste qui intègre des modèles de langage autoregressifs avec des flux normalisants (une méthode de génération avancée). Les recherches ont montré que les flux normalisants peuvent être formés directement dans le cadre d'un modèle de langage de grande taille sans nécessiter d'ajustements architecturaux complexes. De nombreuses expériences ont montré que JanusFlow atteint des performances comparables voire supérieures dans ses domaines respectifs par rapport aux modèles spécialisés, et surpasse largement les approches unifiées existantes dans les tests de référence standards. Ce travail représente un pas en avant vers des modèles de langage visuel plus efficaces et généraux.
Conclusion
Le modèle Janus-Pro-7B de DeepSeek, open-source, excelle dans les tâches de compréhension et de génération multimodale, surpassant Stable Diffusion et DALL-E 3 grâce à son cadre autoregressif innovant et son processus de codage visuel découplé. Le lancement de Janus-Pro montre non seulement le leadership technique de DeepSeek, mais offre également des outils puissants aux développeurs et stimule les progrès des modèles multimodaux.
Adresse spécifique:GitHub 和 HuggingFace