DeepSeek Veröffentlicht Das Neue Visuelle Multimodale Modell Janus-Pro-7B, Übertrifft Stable Diffusion und DALL-E 3
Open-Source-Veröffentlichung von Janus-Pro-7B
Am 28. Januar gab DeepSeek die Open-Source-Veröffentlichung des neuen visuellen multimodalen Modells Janus-Pro-7B bekannt. Dieses Modell übertraf Stable Diffusion und DALL-E 3 von OpenAI in den Benchmark-Tests GenEval und DPG-Bench und zeigte eine hervorragende Leistung.
Innovativer Autoregressiver Rahmen
Janus-Pro ist ein innovativer autoregressiver Rahmen, der eine vereinheitlichte Verständnis- und Generierung von multimodalen Informationen ermöglicht. Im Gegensatz zu früheren Methoden löst Janus-Pro einige der Einschränkungen früherer Frameworks, indem der visuelle Codierungsprozess in mehrere unabhängige Pfade unterteilt wird, während dennoch eine einzige vereinheitlichte Transformer-Architektur für die Verarbeitung verwendet wird. Diese Entkopplungsmethode mildert nicht nur Konflikte, die während des Verständnisses und der Generierung auftreten können, sondern verbessert auch die Flexibilität des Rahmens.
Leistung Übertrifft Traditionelle Modelle
Janus-Pro übertrifft traditionelle einheitliche Modelle und zeigt auch in Vergleichen mit aufgabenspezifischen Modellen hervorragende Ergebnisse. Mit seiner Einfachheit, hohen Flexibilität und Effizienz ist Janus-Pro ein starker Konkurrent für das nächste Generation des einheitlichen multimodalen Modells.
Vereinigtes Multimodales Großes Sprachmodell
Janus-Pro ist ein vereinheitlichtes großes multimodales Sprachmodell (MLLM), das durch das Entkoppeln des visuellen Codierungsprozesses von multimodalem Verständnis und Generierung eine effizientere Verarbeitung ermöglicht. Janus-Pro basiert auf dem Modell DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Bei multimodalen Verständnisausgaben verwendet Janus-Pro SigLIP-L als visuellen Encoder, der Eingaben von Bildern mit 384x384 Pixeln unterstützt. Für Bildgenerierungsaufgaben verwendet Janus-Pro einen Tokenizer aus einer bestimmten Quelle mit einer Downsampling-Rate von 16.
Fortgeschrittene Versionen und Verbesserungen
Janus-Pro ist eine weiterentwickelte Version der früheren Arbeit Janus. Genauer gesagt integriert Janus-Pro optimierte Trainingsstrategien, erweiterte Trainingsdaten und eine größere Modellsgrößenerweiterung. Mit diesen Verbesserungen hat Janus-Pro signifikante Fortschritte in der multimodalen Verständigung und der Text-zu-Bild-Instruktionsbefolgung gemacht und gleichzeitig die Stabilität der Text-zu-Bild-Generierung verbessert.
JanusFlow Architektur
Laut der offiziellen Beschreibung führt JanusFlow eine minimalistische Architektur ein, die autoregressive Sprachmodelle mit Normalisierungsflüssen kombiniert, einer fortschrittlichen Methode des generativen Modells. Die Forschung hat gezeigt, dass Normalisierungsflüsse direkt innerhalb des Rahmens eines großen Sprachmodells trainiert werden können, ohne dass komplexe architektonische Anpassungen erforderlich sind. Zahlreiche Experimente haben gezeigt, dass JanusFlow in seinen jeweiligen Bereichen eine Leistung erreicht, die mit spezialisierten Modellen vergleichbar oder sogar besser ist und in standardisierten Benchmark-Tests die bestehenden einheitlichen Ansätze deutlich übertrifft. Diese Arbeit stellt einen Schritt in Richtung effizienter und allgemeinerer visueller Sprachmodelle dar.
Fazit
Das Open-Source-Modell Janus-Pro-7B von DeepSeek zeichnet sich in den Aufgaben der multimodalen Verständigung und Generierung aus und übertrifft Stable Diffusion und DALL-E 3 dank seines innovativen autoregressiven Rahmens und des entkoppelten visuellen Codierungsprozesses. Die Veröffentlichung von Janus-Pro zeigt nicht nur die technische Führungsposition von DeepSeek, sondern bietet auch Entwicklern leistungsstarke Werkzeuge und fördert die Weiterentwicklung von multimodalen Modellen./
Spezifische Adresse:GitHub 和 HuggingFace